Hinnavaatlus
:: Foorum
:: Uudised
:: Ärifoorumid
:: HV F1 ennustusvõistlus
:: Pangalink
:: Telekavad
:: HV toote otsing
|
|
autor |
sõnum  |
|
Tanel
HV Guru

liitunud: 01.10.2001
|
06.02.2025 14:44:08
Eesti andis sotsiaalmeediaplatvormi Meta kasutusse ligi 4 miljardit sõna |
|
|
Facebooki ja Instagrami emafirma Meta on järjekorras teine suure keelemudeli arendamisega tegelev ettevõte, kelle kasutusse on antud eesti keele korpuse avaandmed, mis sisaldavad peaaegu 4 miljardit sõna. Sellega luuakse eeldused eesti keele ja kultuuri esindatuse kasvatamiseks kaasaaegsetes tehisintellekti mudelites.
Eestikeelsete andmete jagamine loob eelduse, et suured keelemudelid mõistaks Eesti kultuuri konteksti ja muutuks ka eesti keele kasutamises osavamaks. Ühtlasi võimaldatakse seeläbi areng paremaks teeninduseks eestikeelsetele kasutajatele erinevates tehisintellektil põhinevates rakendustes – vestlusrobotites, tõlkesüsteemides jm keeletehnoloogial põhinevates lahendustes.
Justiits- ja digiministeerium kutsub üles nii avalikku kui erasektorit avaldama andmeid, et kasvatada kvaliteetsete eestikeelsete andmete mahtu, seda saab teha avaandmete teabeväravas.
Loe edasi: https://www.justdigi.ee/uudised/eesti-andis-sotsiaalmeediaplatvormi-meta-kasutusse-ligi-4-miljardit-sona
Vaata ka: https://avaandmed.eesti.ee/
_________________ Hinnavaatlus.ee - leia parim hind!
HV valuutakalkulaator |
|
Kommentaarid: 465 loe/lisa |
Kasutajad arvavad: |
   |
:: |
12 :: |
7 :: |
358 |
|
tagasi üles |
|
 |
Dreamlover
HV Guru

liitunud: 21.02.2013
|
|
Kommentaarid: 1801 loe/lisa |
Kasutajad arvavad: |
   |
:: |
4 :: |
0 :: |
1268 |
|
tagasi üles |
|
 |
RassK
HV Guru

liitunud: 17.01.2007
|
06.02.2025 15:00:11
|
|
|
metast vähemalt on kasu, kuna vastu saab open source llama mudeli kõigile kasutamiseks.
|
|
Kommentaarid: 115 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
100 |
|
tagasi üles |
|
 |
SKG
HV Ihaldatuim Poissmees

liitunud: 27.01.2003
|
06.02.2025 15:02:11
|
|
|
Dreamlover kirjutas: |
Eesti keeles pole ju niipalju sõnu  |
Iga sõna igas võimalikus käändes äkki? Pluss pöörded. Ainsus, mitmus...
_________________ 17/1/2023, Scart: "Selle sajandi senise möödunud aja üks suuremaid skandaale on hetkel lahti rullumas..."
6/4/2025, RFK Jr: "The most effective way to prevent the spread of measles is the MMR vaccines." |
|
Kommentaarid: 373 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
3 :: |
313 |
|
tagasi üles |
|
 |
Dreamlover
HV Guru

liitunud: 21.02.2013
|
|
Kommentaarid: 1801 loe/lisa |
Kasutajad arvavad: |
   |
:: |
4 :: |
0 :: |
1268 |
|
tagasi üles |
|
 |
Tanel
HV Guru

liitunud: 01.10.2001
|
|
Kommentaarid: 465 loe/lisa |
Kasutajad arvavad: |
   |
:: |
12 :: |
7 :: |
358 |
|
tagasi üles |
|
 |
Tanel
HV Guru

liitunud: 01.10.2001
|
|
Kommentaarid: 465 loe/lisa |
Kasutajad arvavad: |
   |
:: |
12 :: |
7 :: |
358 |
|
tagasi üles |
|
 |
RassK
HV Guru

liitunud: 17.01.2007
|
06.02.2025 18:21:34
|
|
|
Ja nii siis kukubki kvaliteetne eestikeelne sisu ära Suurtel AI firmadel pole vaja eestikeelset tasulist sisu ja free - open source mudelid ilmselt midagi ostma ei hakka.
Omal meil kvaliteetse NLP loomise oskusi ei ole, ammugi raha ja HW'd.
|
|
Kommentaarid: 115 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
100 |
|
tagasi üles |
|
 |
Prillpapa
HV kasutaja
liitunud: 04.06.2022
|
06.02.2025 18:34:03
|
|
|
Nõks veider see sedasi jagamine ju on, ilma arutelu, reeglite ja võimalike järelmiteta. Eriti kus USA-s käib vaidlus, vist isegi kohtuvaidlusi selle üle, kas AI treenimiseks internetis saadaolevat nt mõne meediagrupi toodetu sisu küsimata ja tasuta kasutamine ikka on korrektne.
Lisaks on ju ka Hiinast nüüd vabavaralisi keelemudeleid, mille järgi otsustatakse, et Meta-le anname aga nt DeepSeekile ei anna - poliitikute suva järgi.
Lisaks Google näitel, kes just kraapis oma kasutustingimustest välja kuidas nende loodut võib edaspidi kasutada ka kahju tekitamiseks, nt sõjalisel otstarbel. Kuidas me saame kindlad tingimusteta sisu jagades olla, et nt tulevikus Meta oma keelemudeli tingimusi ei muuda, alates tasuliseks tegemisest kuni otsese sõjalise kasutmiseni Eesti inimeste vastu.
Mingid tingimused ja reeglid võiks olla enne üleandmist sõnastatud, mis välistaks meile kahju tegemise või kasvõi kohustuse meilt küsida, kui treenitud AI-d asutakse kasutama või müüma otstarbel mis täna ei ole aktuaalne.
Samas Eesti võimudel ei ole väga mõistlikkust oodata, kunagi oli vist Pealtnägija lugu, kuidas siseministeeriumi kantsleri tasemel oli siseministeeriumi ja USA saatkonna vahel leping kus Eesti võimud tuvastavad kõik saatkonda huvitavad sõidukid ja isikud saatkonna naaberkvartalite ulatuses ning annavad andmed USA võimudele. Pretsedenditu olevat just Eesti võimude ükskõiksus, kus Eesti kodanike andmeid jagatakse võõrriigi teenistustele huvi tundmata, kuidas andmeid kasutatakse, mis neist edasi saab, kas USA jagab andmeid kolmandatele riikidele jne.
Üldiselt riigid lähtuvad oma kodanike kaitses ka oma kodanike kohta käivad andmed käivad kaitse alla - Eesti võimudel ükskõik. Arvatavalt kisa tõuseks vaid juhul, kui samu andmeid tahaks nt Venemaa või Hiina, kasvõi saatkonna näitel nö võrdsete reeglite või kohtlemise printsiipi arvestades, kus just õigusriiki eristavat suvalisest autokraatiast reeglitepõhisus - olulisi alamaid puudutavaid otsuseid tehakse kokkulepitud reeglite järgi aga mitte poliitikute suvast.
_________________ --- |
|
Kommentaarid: 19 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
19 |
|
tagasi üles |
|
 |
RassK
HV Guru

liitunud: 17.01.2007
|
06.02.2025 19:41:22
|
|
|
No pm väga suur vahet pole, kellele annad. Kui ühele annad, siis tehakse distilled mudelid teise pealt. Nagu DeepSeek on väidetavalt osaline distillation OpenAI mudelitest (üle API varastatud sisu lihtsamas keeles).
|
|
Kommentaarid: 115 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
100 |
|
tagasi üles |
|
 |
MatchMaker
Kreisi kasutaja

liitunud: 23.06.2007
|
|
Kommentaarid: 2 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
2 |
|
tagasi üles |
|
 |
Uhuu
HV kasutaja

liitunud: 08.04.2004
|
07.02.2025 12:14:52
|
|
|
RassK kirjutas: |
metast vähemalt on kasu, kuna vastu saab open source llama mudeli kõigile kasutamiseks. |
LLAMA siiski ei ole open source.
_________________ Windows ei ole viirus, viirus teeb midagi...
 |
|
Kommentaarid: 14 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
14 |
|
tagasi üles |
|
 |
wex
Kreisi kasutaja
liitunud: 25.11.2003
|
07.02.2025 19:56:49
|
|
|
SKG kirjutas: |
Dreamlover kirjutas: |
Eesti keeles pole ju niipalju sõnu  |
Iga sõna igas võimalikus käändes äkki? Pluss pöörded. Ainsus, mitmus... |
Keelekorpuses https://et.wikipedia.org/wiki/Keelekorpus on kokku 4 miljardit sõna (s.h. terviktekstid). Selle jagamisest või mittejagamisest räägitakse.
|
|
Kommentaarid: 120 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
113 |
|
tagasi üles |
|
 |
RassK
HV Guru

liitunud: 17.01.2007
|
07.02.2025 20:37:16
|
|
|
Uhuu kirjutas: |
RassK kirjutas: |
metast vähemalt on kasu, kuna vastu saab open source llama mudeli kõigile kasutamiseks. |
LLAMA siiski ei ole open source. |
Nojah, treenimis datat vaevalt keegi jagama hakkab nagu lähtekoodi tarkvara puhul.
|
|
Kommentaarid: 115 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
100 |
|
tagasi üles |
|
 |
lopes39
HV Guru

liitunud: 08.11.2004

|
07.02.2025 22:48:20
|
|
|
See kõik on ju avalik info. Seega mis vahe seal on et see anti lihtsalt ?
Kui see aitab AI arendusse siis see ju meile kasuks, kui automatiseeritud programmid tõlgivad meie keelt võõrkeelde.
|
|
Kommentaarid: 10 loe/lisa |
Kasutajad arvavad: |
   |
:: |
1 :: |
0 :: |
7 |
|
tagasi üles |
|
 |
Tanel
HV Guru

liitunud: 01.10.2001
|
|
Kommentaarid: 465 loe/lisa |
Kasutajad arvavad: |
   |
:: |
12 :: |
7 :: |
358 |
|
tagasi üles |
|
 |
RassK
HV Guru

liitunud: 17.01.2007
|
|
Kommentaarid: 115 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
100 |
|
tagasi üles |
|
 |
Prillpapa
HV kasutaja
liitunud: 04.06.2022
|
08.02.2025 14:49:54
|
|
|
Kah hea käsitlus: https://novaator.err.ee/1609599314/tanel-tammet-rumal-tehisaru-peletab-eestlased-voorasse-kultuuriruumi
Kuigi see aluseeldus nagu eestlased klammerdusid kangesti eesti keele külge, on pigem vist väär. Kui arvestada nt tarbijate poolt Apple toodete eelistamist, kus Apple toodetes eesti keel puudub ja sarnastes konkureerivates toodetes on eesti keel olemas - retoorikas kõvad keele ja kultuuri kaitsjad, praktikas lastakse laia kaarega.. Laieneb ka mujale, siin foorumis samuti terve plejaad (põlis)kasutajad, kelle keelekasutus on eesti-inglise segakeel ja praalitakse kuidas eesti keel tehnika ja kübersektoris on kurjast ning IT teadlikud inimesed väldivad eesti keele kasutamist juba eos.
Lisada juurde kuidas noored kirjanikud pidid oma esimesi raamatuid kirjutama just inglise keeles või valdava osa muusika eelistuses eesti keelt ei ole või on viimasel kohal.
Kas oleks üldse mõistlik vaevata, kui tehisaru eesti keelse materjali peal end ei treeni, võimalik et ka tänane tehisadu tõenäoliselt ka eesti keelt näppinud, sest kuidas muidu oleks tehisarul võimalik täna eesti keelt osata
_________________ --- |
|
Kommentaarid: 19 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
19 |
|
tagasi üles |
|
 |
Uhuu
HV kasutaja

liitunud: 08.04.2004
|
08.02.2025 15:47:21
|
|
|
RassK kirjutas: |
Uhuu kirjutas: |
RassK kirjutas: |
metast vähemalt on kasu, kuna vastu saab open source llama mudeli kõigile kasutamiseks. |
LLAMA siiski ei ole open source. |
Nojah, treenimis datat vaevalt keegi jagama hakkab nagu lähtekoodi tarkvara puhul. |
Seal on piiranguid ikka märksa rohkem kui treenimise data. Kes võib kasutada, palju võib kasutada. Mida treenida kuidas jne. Marketing on tore aga oss maailmas asjad nii ei käi. Ots on ikka Metal tugevasti pihus.
https://opensource.org/blog/metas-llama-2-license-is-not-open-source
_________________ Windows ei ole viirus, viirus teeb midagi...
 |
|
Kommentaarid: 14 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
14 |
|
tagasi üles |
|
 |
RassK
HV Guru

liitunud: 17.01.2007
|
08.02.2025 16:49:06
|
|
|
Uhuu, vaatasin hiljem jah, et teema on sügavam aga kodulehel suurelt reklaam open-source Ise kasutan neid mudeleid aga poleks selle pealegi tulnud, et marketing nii käsitleb, et kompileeritud mudel = open source. Nii võiks tõesti iga kompileeritud distrot "open source"'ks pidada... ma saan aru küll, et datat ei saa niisama lihtsalt jagada aga muu osa ka veits viltu.
|
|
Kommentaarid: 115 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
100 |
|
tagasi üles |
|
 |
bugbrake
HV kasutaja
liitunud: 10.12.2006
|
|
Kommentaarid: 6 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
6 |
|
tagasi üles |
|
 |
Tanel
HV Guru

liitunud: 01.10.2001
|
|
Kommentaarid: 465 loe/lisa |
Kasutajad arvavad: |
   |
:: |
12 :: |
7 :: |
358 |
|
tagasi üles |
|
 |
woox2k
Kreisi kasutaja

liitunud: 25.03.2009
|
10.02.2025 18:15:57
|
|
|
Prillpapa kirjutas: |
Kuigi see aluseeldus nagu eestlased klammerdusid kangesti eesti keele külge, on pigem vist väär. Kui arvestada nt tarbijate poolt Apple toodete eelistamist, kus Apple toodetes eesti keel puudub ja sarnastes konkureerivates toodetes on eesti keel olemas - retoorikas kõvad keele ja kultuuri kaitsjad, praktikas lastakse laia kaarega.. |
Siin on ka prioriteetide küsimus. Eesti keelt võib ju kasutada ja aidata kaasa selle säilimisele aga selle nimel nüüd nahast välja ka hüppama ei hakka. Kui soovin Apple telefoni kasutada, siis kasutan seda ka ilma Eesti keeleta, samas Eesti keele olemasolul oleks see ka süsteemi keeleks määratud. (nagu Android on) Tehisaruga on asi täpselt samamoodi, kui see valdaks piisaval tasemel Eesti keelt, siis seda ma ka seal kasutaks. Hetkel see nii veel ei ole ja kasutan rahus Inglise keeles. Ilmselt ma pole ainuke selline.
Kui minusuguseid on palju, peaks just jagama võimalikult palju (legaalset) infot tehisaru arendusse. See otseselt aitaks kaasa keele säilimisele ka tulevikus. Ega tehisarud ei kao enam kuhugi ja sundides oma inimesi inglise keeles suhtlema nendega süveneks ülalmainitud segakeelsete IT inimeste probleem ja laieneks ka mujale. (Ma ise olen ka üks nendest muidugi)
Tehisaru võikski võtta ühe ideaalse keelesäilitamise tööriistana. Õigesti kasutades suudab see tulevikus kaotada ära vajaduse võõrkeeli üldse õppida ja ainult oma emakeeles suhelda kõigiga üle maailma!
_________________ Mess with the best, die like the rest! |
|
Kommentaarid: 20 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
18 |
|
tagasi üles |
|
 |
Prillpapa
HV kasutaja
liitunud: 04.06.2022
|
10.02.2025 18:51:20
|
|
|
Eks see keele&kultuuri säilitamine on jah tõlgendamise või kummist teema. Seda võib näha ka nö muuseumi säilikuna, kus riik dikteerib&rahastab keelekaitset, ja keele arengut ning praktikasse ehk rahvasse see ei puutu. Ehk kultuuri ja keele aktiveerub peamiselt ainult juhul kui otsitakse vastandumist nö Eesti riikluse identiteet põhineb Venemaale vastandumisel ja see on päästikuks. Ehk kultuur, rahvarõivad, laulupeod on stiilipeod jm rohekm muuseumide ja keeleteadlaste pärusmaa, praktikas rahvas peab pulmi-peiesid Holliwuudi filmi traditsioonidest lähtuvalt ja Keeleinspektsioon näeb eesti keelele ohtu ainult vene keeles, inglise keele risustavat vohamist kommenteeriti poole mokaga, et keeled ka eesti keel "areneb" ja olevat tavaline, kui teistest keeltest eesti keelde sõnu juurde tuleb - kui noored eesti-inglise segakeeles suhtlevad on see "areng" aga kuskil venekeelne silt või kõrva riivav vene keel on "oht"
Üldiselt tehisintellektid oskavad eesti keelt tekstis üllatavalt hästi, ehk kuskilt nad seda õppinud on.., enam märgitakse puudujääke AI audio eesti keelsetel esitlustel.
Vist DeepSeek mingis seades ka näitab kuidas ta tulemuseni jõuab, ehk alguses vastab inglise keeles ja tõlgib seejärel vastuse eesti keelde.
Mis omakorda tõstab omaette küsimusi AI ja väikekeele suhetest, kas AI peaks eesti keeles küsides eelkõige vastama selle info pinnalt mida ta on õppinud eesti keelsest materjalist ja vältima suurkeele inforuumi võimalikku mõju, või eesmärk on info täpsus kogu saadaoleva AI teadmise pinnalt ja selle ettekandmine võimalikult maalähedases vormis nagu naabri Kalle seda teeks
Eriti poliitilistel teemadel võib erisus sisse tulla, kus Eesti on lausa peaministri tasemel rõhutanud, kuidas tänases julgeolekuolukorras ei ole vaba inforuum meie huvides, peame olema ühtsed ehk tervel real teemadel lubatud ainult riigi strateeglisest kommunikatsiooni järgiv inforuum.
Kogu teemakäsitluse iva ehk AI konsortsiumitele eesti keelsete materjalide loovutamise vaatest, mitmes kohas märgitud nagu rongist maha jäämise ohtu - ma ei saa sellest hästi aru, mis vahet on kas AI õpib eesti keelset materjali täna või nt arenenum AI palju kiiremini ja tõhusamalt nt 3 aasta pärast. Kas kolm aastat hiljem õppinud AI on mahajäänum, rumalam jms või tegelikult pigem ei ole vahet..
Kuna ka tänased AI-d oskavad hästi eesti keelt, väidetakse, et see oskus on saavutatud Google, Meta jt poolt kokku varastatud andmete pealt, ehk kõik mis kuskil suurtel olemas ja tallel, on AI treenimiseks käigus olnud ja Eesti võib siin kukerpalle teha, meil seda väärata ei õnnestu.
Veel on märgitud kus eesti keeles osav AI ei ole ainult eelis vaid sellel on ka puuduseid, juba täna nö petuturundused ja pärispetised kasutavad AI võimalusi, homme võidakse süsteemselt ja mastaapselt tervet inforuumi mõjutada puhtas eesti keeles, mis teeb täna riigil ja kõigil inforuumi ohjamise omale meelepäraselt keerulisemaks.
Kes teab ehk tuleviku tõsiseltvõetavad arutelud saavad olla ainult reaalsed inimeste kokkutulemised, rahvakogunemised, kihutuskõned jm, sest digimaailmas ei ole enam võimalik AI propat ja inimest eristada
On ju AI võtmes räägitud ka nö AI assistendist, kes vastab su kirjadele, teeb uudistest ja laekunud kirjadest kokkuvõtteid, mille loogiline järeldus oleks, teeb su eest ka lihtsamaid otsuseid, aga miks mitte ka olulisemaid nt e-hääletab su eest ehk lõpuks kodanike asemel möllavad meie digitaalsed AI teisikud, kes on meist nagunii targemad, kiiremad ja ilusamad
_________________ --- |
|
Kommentaarid: 19 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
19 |
|
tagasi üles |
|
 |
RassK
HV Guru

liitunud: 17.01.2007
|
10.02.2025 18:56:02
|
|
|
Prillpapa kirjutas: |
Kogu teemakäsitluse iva ehk AI konsortsiumitele eesti keelsete materjalide loovutamise vaatest, mitmes kohas märgitud nagu rongist maha jäämise ohtu - ma ei saa sellest hästi aru, mis vahet on kas AI õpib eesti keelset materjali täna või nt arenenum AI palju kiiremini ja tõhusamalt nt 3 aasta pärast. Kas kolm aastat hiljem õppinud AI on mahajäänum, rumalam jms või tegelikult pigem ei ole vahet.. |
Algandmestikuga tuleb ka tööd teha, mitte nii, et see on nüüd olemas ja valmis ning ainult AI peab arenema. See on 3a algandmete töötlemises mahajäämust juba. Lisaks kui algandmed on juba ära indekseeritud, siis on neid uuendusi lihtsam sisse saada kui tervet uut keelt. Kui praegu on soodne aeg sisse saada kuna AI arendajad on algandmete näljas, siis hiljem võivad prioriteedid hoopis mujal olla ja hakkad peale maksma, et üldse sisse saada.
|
|
Kommentaarid: 115 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
100 |
|
tagasi üles |
|
 |
|