Avaleht
uus teema   vasta Tarkvara »  Programmeerimine »  kuidas programmeerida võõrkeele translaatorit märgi kõik teemad loetuks
märgi mitteloetuks
vaata eelmist teemat :: vaata järgmist teemat
Hinnavaatlus :: Foorum :: Uudised :: Ärifoorumid :: HV F1 ennustusvõistlus :: Pangalink :: Telekavad :: HV toote otsing
autor
sõnum Saada viide sõbrale. Teata moderaatorile
otsing:  
mirko28
Aeg maha 1p
mirko28

liitunud: 31.12.2003




sõnum 18.08.2010 13:39:17 kuidas programmeerida võõrkeele translaatorit vasta tsitaadiga

Internetis on võõrkeelse teksti translaatoreid, näiteks google Translator on selline.
Tegu on tarkvaraga, mis võtab sisendiks tekstijupi mis on ühes (mingis) võõrkeeles, ja väljundiks esitab teksti, mis on (mingis) teises võõrkeeles.
Näiteks kasutaja sisestab "I want coffee" ja translaator annab väljundiks "Ma tahan kohvi".
Kuidas sedalaadi translaatorit programmeerida?
Mida programm kood vajab- kas vajab andmebaasi kus on sõnaraamat, kas on vaja grammatika reeglite andmemaasi vms?
Kas on vaja filoloogi rolli abi, kes kirjeldab grammatika reeglid sõnaliselt?
Kuidas programmkoodi algoritmiselt üldiselt toimiks- ala, et mida sisend tekstiga esmase letapil teha, mida teisel?
Kas on mingeid spetsiifilisi programmeerimise algoritme mida tõlkeks vaja läheb- ala võib-olal on vaja prioritiseerida ehk tõenäosused anda millelegi infosüsteemis ja kasutada algoritmis kuidagi neid vms?
Üldiseks küsimuseks on, et kui keegi teab kuidas sedalaadi Tarkvara luua, siis andke soovitusi siia.
Kui kusagil leidub ka vabavaraline näite lähtekood, siis postitage.
Küsimus peaks "Programmeerimise"-valdkonna alla sobima kõige rohkem, osaliselt võib see küsimus siin vist ka Äri-valdkonna alla paigutada.
Kommentaarid: 5 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 4
tagasi üles
vaata kasutaja infot saada privaatsõnum
Fukiku
Kreisi kasutaja
Fukiku

liitunud: 06.11.2003




sõnum 18.08.2010 14:09:45 vasta tsitaadiga

Huvi korral on mõistlik ehk vähemalt esmane info ammutada wikipediast, näiteks siit: http://en.wikipedia.org/wiki/Machine_translation

Üldiselt on igasugune masintõlge ikkagi suhteliselt keeruline probleem, millest inimesed kirjutavad doktoritöid ning teevad arvuti- ja keeleteaduste kokkupuutepunktis väga agaralt tippteadust. Põlve otsas ise ilmselt midagi väga adekvaatset kohe vast kokku kirjutada ei õnnestu.

ot:
Muide, natuke vähem kiirustamist ja natuke rohkem tähelepanu oma postituse teksti korrektsusele ja loetavusele suurendab kindlasti ka adekvaatsete vastuste tõenäosust.

_________________
Foxic is just a simple fox
Enne kui sa küsid oma küsimuse - küsi seda vannipardilt! Rangelt soovitatav enne programmeerimise alafoorumisse uue teema tegemist.
Kommentaarid: 2 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 2
tagasi üles
vaata kasutaja infot saada privaatsõnum
kusti85
Tavaline kasutaja

liitunud: 11.11.2007



Autoriseeritud ID-kaardiga

sõnum 18.08.2010 14:29:20 vasta tsitaadiga

Kui sul huvi on, siis võid uurida Tartu Ülikooli vastavaid artikleid antud teemal ja miks ka mitte ühendust võtta inimestega, kes asja läbi viivad.
Mõnikord nad ei ole kurjad kui neile nende teadustöö kohta küsimusi esitatakse. Mõnikord on.
http://masintolge.ut.ee/info/info.html

_________________
Rockmuusikateemaline viktoriin Tallinnas Mökus - https://www.facebook.com/groups/rocktoriintallinn/
Ketas, ketta, ketast, kettasse, kettas, kettast, kettale, kettal, kettalt, kettaks, kettani, kettana, kettata, kettaga. <--SPIKKER
Kommentaarid: 214 loe/lisa Kasutajad arvavad:  :: 3 :: 0 :: 180
tagasi üles
vaata kasutaja infot saada privaatsõnum
guest1902
Kreisi kasutaja
guest1902

liitunud: 05.11.2005




sõnum 18.08.2010 14:38:33 vasta tsitaadiga

Märksõnaks arvutilingvistika ehk computational linguistics. See läheb rohkem ülikooli teemasse jah.
Nii palju, kui mina aru saanud, on seni põhiprobleemiks mudeli paberil väljatöötamine kui selle implementeerimine mingi keele abil.
Ülevaatlik konspekt ja mis seis maailmas praegu on.

Korpuslingvistika läheb vist rohkem teemasse...
Kommentaarid: 2 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 2
tagasi üles
vaata kasutaja infot saada privaatsõnum
mirko28
Aeg maha 1p
mirko28

liitunud: 31.12.2003




sõnum 18.08.2010 14:39:37 vasta tsitaadiga

Tänan hea info eest.
Tundub, et "tõlke-algoritmid" on keerukad, ja arendada pole lihtne sedalaadi asja.
Ilmselt on ka erinevatel võõrkeeltel need algoritmid erinevad, kuna grammatikareeglid on erinevates võõrkeeltes erinevad. Seega peab Arendajat juhendama ka vastava võõrkeele Filoloog.
Kommentaarid: 5 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 4
tagasi üles
vaata kasutaja infot saada privaatsõnum
Fukiku
Kreisi kasutaja
Fukiku

liitunud: 06.11.2003




sõnum 18.08.2010 15:04:07 vasta tsitaadiga

estrose kirjutas:
Tänan hea info eest.
Tundub, et "tõlke-algoritmid" on keerukad, ja arendada pole lihtne sedalaadi asja.
Ilmselt on ka erinevatel võõrkeeltel need algoritmid erinevad, kuna grammatikareeglid on erinevates võõrkeeltes erinevad. Seega peab Arendajat juhendama ka vastava võõrkeele Filoloog.
Ka see, kallike, on räige ülesande alahindamine. Kui on soov tõepoolest jalgratast leiutama hakata, siis sul on vaja tervet meeskonda arvutilingviste, kes mõtlevad välja, kuidas ja mida teha ning paari asjalikku programmeerijat, kes selle siis reaalsesse koodi valavad. Eelpool lingiti Tartu Ülikooli arvutilingvistika töörühma kodulehte - nende senised saavutused ei ole veel väga muljetavaldavad minu arvates ning samas on ilmselt tegemist eesti keele masintõlke absoluutse tipptasemega maailmas (mujal maailmas muidugi keegi ei tunne ka meie marginaalse keele vastu huvi). Samuti tasub märgata, et demovad nad avalikult ainult eesti->inglise suunda, mis ma usun, et on kergem kui inglise->eesti tõlke teostamine näiteks. (viimane väide on väga kõhutunde pealt võetud hetkel)

Ühesõnaga, kui sul ei ole seljataga kas teaduse tegemiseks tervet hunnikut grante või riskikapitalisti, kes aitab sul kuskilt ülikoolist spetsialistid üle osta, siis kasuta google translate'i oma rakenduses icon_smile.gif

_________________
Foxic is just a simple fox
Enne kui sa küsid oma küsimuse - küsi seda vannipardilt! Rangelt soovitatav enne programmeerimise alafoorumisse uue teema tegemist.
Kommentaarid: 2 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 2
tagasi üles
vaata kasutaja infot saada privaatsõnum
mirko28
Aeg maha 1p
mirko28

liitunud: 31.12.2003




sõnum 18.08.2010 15:25:32 vasta tsitaadiga

Fukiku kirjutas:
Ühesõnaga, kui sul ei ole seljataga kas teaduse tegemiseks tervet hunnikut grante või riskikapitalisti, kes aitab sul kuskilt ülikoolist spetsialistid üle osta, siis kasuta google translate'i oma rakenduses icon_smile.gif


Ma saan aru et tegu on keeruka asjaga, selelks ma ülevaadet üritangi luua sellest.
Mulle tundub esialgu nii, et inglise-eesti tõlke teemal eestist leiab kompetentsi, aga muude keelte puhul oleks seda raskemgi leida, näiteks rootsi-eesti variandi puhul.
Kommentaarid: 5 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 4
tagasi üles
vaata kasutaja infot saada privaatsõnum
Ho Ho
HV Guru
Ho Ho

liitunud: 16.02.2002




sõnum 18.08.2010 21:08:50 vasta tsitaadiga

Tihtipeale kasutatakse ühest keelest teise tõlkimise lihtsustamiseks "vahekeelt". Google näiteks peaks kasutama ingliskeelt. Ehk siis näiteks hispaania->jaapani keelde tõlkimiseks tehakse kõigepealt hispaania->inglise tõlge ja siis inglise -> jaapani. Loomulikult tõlke kvaliteet kannatab selle läbi tugevalt kuid vähemalt ei ole vaja iga kombinatsiooni jaoks hakata oma algoritmi välja mõtlema
_________________
Teach a man to reason and he'll think for a lifetime
Common sense - so rare that it's a damn superpower
Vaadates paljude inimeste sõnavõtte siin ja mujal jääb üle ainult klassikuid tsiteerida - "I weep for humanity"
Kommentaarid: 106 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 86
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
keevitaja
AM 10 aastat
keevitaja

liitunud: 05.11.2001




sõnum 20.08.2010 23:21:24 vasta tsitaadiga

eesti keelega on üldse kehvasti lood tänu oma keerukusele. kui ma vahest google translatorit kasutan mõne üksiku lause või fraasi tõlkimiseks siis lasen alati panna inglise keelde. eesti keelega on lootusetu...
_________________
Hinnavaatlus ei ole koht arvamuse avaldamiseks!
Kommentaarid: 51 loe/lisa Kasutajad arvavad:  :: 1 :: 3 :: 40
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
virus152
HV vaatleja
virus152

liitunud: 05.03.2009




sõnum 21.08.2010 00:03:18 vasta tsitaadiga

Ho Ho kirjutas:
Tihtipeale kasutatakse ühest keelest teise tõlkimise lihtsustamiseks "vahekeelt". Google näiteks peaks kasutama ingliskeelt. Ehk siis näiteks hispaania->jaapani keelde tõlkimiseks tehakse kõigepealt hispaania->inglise tõlge ja siis inglise -> jaapani. Loomulikult tõlke kvaliteet kannatab selle läbi tugevalt kuid vähemalt ei ole vaja iga kombinatsiooni jaoks hakata oma algoritmi välja mõtlema

Google'st on jäänud mulje, et vajadusel kasutab (või kasutas; pole kaua vaja läinud) isegi mitut vahekeelt. (Vähemalt see soome keele viskamine eesti keele sekka võiks sellele vihjata.)
Kommentaarid: 2 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 2
tagasi üles
vaata kasutaja infot saada privaatsõnum
guest1902
Kreisi kasutaja
guest1902

liitunud: 05.11.2005




sõnum 21.08.2010 14:48:25 vasta tsitaadiga

Alguses võeti vist tõesti soome keele korpus aluseks. Lähedased keeled ju...
Eesti keele lisandumise algusaegu sai ka mõnusaid soome keele vasteid inglise->eesti tõlkes nautida.
Ei tea, kas praegu seda nii tihti esineb. Vaimustus selle kasutamisest on üle läinud.
Kommentaarid: 2 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 2
tagasi üles
vaata kasutaja infot saada privaatsõnum
blinx
HV vaatleja

liitunud: 28.11.2009




sõnum 22.08.2010 13:00:21 vasta tsitaadiga

suht lihtne peaks olema kasutada bi-tekste(kus üks sisu on saadaval mitmes keeles) nii tõlkimiseks kui tõlkija abivahendite / terminoloogia andmebaaside loomiseks(google length based natural language processing/non-linguistic methods) aga sellega on see probleem, et tõlkijad ei tõlgi sama lauset alati samamoodi ja vahest ka mitte ainult üheks lauseks, st. häid tulemusi ei tasu loota!

euroopa parlamendi õigusaktide tõlked jms. on veebis üleval

edit: lihtne all mõtlen jah, et ei pea ajukirurg olema nasas

_________________
'Just buy everything then you're safe'


viimati muutis blinx 24.08.2010 09:00:19, muudetud 1 kord
tagasi üles
vaata kasutaja infot saada privaatsõnum
nene
Kreisi kasutaja
nene

liitunud: 20.03.2004




sõnum 22.08.2010 13:25:47 vasta tsitaadiga

blinx, seda nimetataksegi statistiliseks masintõlkeks, ning see töötab nii palju hästi, et tänu sellele on masintõlge tulnud välja varjusurmast kus ta veel mõnda aega tagasi viibis. Muidugi see kõik pole niisama lihtne, aga see on oluliselt lihtsam kui üritada panna masinat tekstist päriselt aru saama (nagu vanasti masintõlget saavutada püüti).
_________________
Mõistus otsas? Pane pinusse...
Kommentaarid: 24 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 23
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
näita postitusi alates eelmisest:   
uus teema   vasta Tarkvara »  Programmeerimine »  kuidas programmeerida võõrkeele translaatorit
[vaata eelmist teemat] [vaata järgmist teemat]
 lisa lemmikuks
näita foorumit:  
 ignoreeri teemat 
sa ei või postitada uusi teemasid siia foorumisse
sa ei või vastata selle foorumi teemadele
sa ei või muuta oma postitusi selles foorumis
sa ei või kustutada oma postitusi selles foorumis
sa ei või vastata küsitlustele selles foorumis
sa ei saa lisada manuseid selles foorumis
sa võid manuseid alla laadida selles foorumis



Hinnavaatlus ei vastuta foorumis tehtud postituste eest.