Avaleht
uus teema   vasta Tarkvara »  Tarkvara »  LLMid kohaliku raua peal märgi kõik teemad loetuks
märgi mitteloetuks
vaata eelmist teemat :: vaata järgmist teemat
mine lehele 1, 2  järgmine
Hinnavaatlus :: Foorum :: Uudised :: Ärifoorumid :: HV F1 ennustusvõistlus :: Pangalink :: Telekavad :: HV toote otsing
autor
sõnum Saada viide sõbrale.  :: Teata moderaatorile teata moderaatorile
otsing:  
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 27.02.2025 23:57:12 LLMid kohaliku raua peal vasta tsitaadiga

Heia mõtlesin teen teema suurte keelemudelite jooksutamisest kohaliku raua peal.

Tundub et praegu on levinud kaks frameworki'i LLMide jooksutamiseks. Üks on LM Studio, mis on kinnise koodiga ja äri jaoks tasuline, kuid tuleb kohe karbist kena GUIga ja teine on ollama, mis on avatud koodiga ja ägeda WebAPIga millele pythoni moodul jms olemas, kuid vaikimisi ilma GUIta, on ainult käsurida. Õnneks on ollamale mitmeid GUIsid tehtud, minu enda lemmik on Open WebUI. Seal saab lasta kohalikel mudelitel dokumente analüüsida, pythoni koodi sandboxis jooksutada, kohalikke mudeleid veebi otsinguga netti lasta jne.

ollama Windowsi all käima saamine on väga lihtne. https://ollama.com/download tõmbad exe alla, paned käima. Kõik seadistus toimub automaatselt, toetatud GPUde puhul kasutab GPUd, kui mitte siis CPUd. Command line'ilt või powershellist saab alla tõmmata endale mudeli. Neid on nagu kirjusid koeri https://ollama.com/search Mida rohkem on mudelil parameetreid, seda targem ta on aga seda aeglasemalt jookseb. Mudeli valik sõltub raua võimekusest. kirjutades käsureale näiteks ollama pull phi4 tõmbab ollama alla 14.7 miljardise parameetriga Microsofti phi4 mudeli.
Käivitamiseks ollama run phi4 ja läheb lahti. Natuke võtab aega mudeli mällu lugemine ja chatbot on olemas. Kui tahad mudeli kiirust mõõta, siis "ollama run <mudeli nimi> --verbose"

Alla 30B parameetriga LLMid eesti keelega just ei hiilga, parimaid vastuseid saab inglise keeles suheldes. Stiilinäide gemma2:27B eesti keele oskuse kohta:

ollama run gemma2:27B --verbose
>>> mis tähendab käru keerama ?
"Käru keerama" on eesti keelne väljend, mis tavaliselt kasutatakse **lastevanemate poolt**. See tähendab **beebi
või väikelapsega jalutamist**, eriti pikemal ja aktiivsemal reisil.

Näiteks: "Täna olime kogu pere metsas ja käru keerasin üle kolme kilomeetri."


Lisaks sellele tavapärasele tähendusele, võib väljend olla ka **metafooriline**. Näiteks:

* "Ta on elu käru keeranud nii kaua, et nüüd on ta väsinud." (tähendab, et inimene on kogenud palju ja on nüüd
väsinud.)
* "Me peame oma plaane ümber hindama ja käru uues suunas keerata." (tähendab, et tuleb teha drastilisi muudatusi.)

Seega sõltub "käru keerama" täpne tähendus kontekstist.


total duration: 26.9107246s
load duration: 25.2972ms
prompt eval count: 19 token(s)
prompt eval duration: 1.049s
prompt eval rate: 18.11 tokens/s
eval count: 234 token(s)
eval duration: 25.834s
eval rate: 9.06 tokens/s

Tavaliselt küsitakse mida saab LLMidega teha. Sama hästi võiks küsida, mida saab inimmõistusega teha. LLM saab olla programmeerimise abiline, kellegi hääle kloonija, teadusartiklite seletaja ja veel miljon kasutust mida ilmselt näema lähiaastakümnetel ilmumas. Täna veel ei ole iga probleemi lahendamiseks sobivat LLMi mudelit aga kuna erinevaid LLMi mudeleid on praeguseks juba üle miljoni, siis on ainult aja küsimus millal iga asja hästi tegemiseks on oma optimaalne LLM.
Jah kohalikud mudelid on vähem võimekamad kui pilve põhised serveritel jooksvad GPT-4o (tuntud ka kui ChatGPT), Gemini 2.0 Pro, Cloude 3.7 Sonnet jpt aga neid saab tasuta omal raual jooksutada ja lihtsamate ülesannetega saavad nad peaaegu sama hästi hakkama.

Kui teema vastu huvi on, võin siin oma beebi skainettide jooksutamisest edasi heietada icon_biggrin.gif

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
erick
HV Guru
erick

liitunud: 24.01.2003




sõnum 28.02.2025 00:40:49 vasta tsitaadiga

Heieta aga! Loeks huviga!
Kommentaarid: 106 loe/lisa Kasutajad arvavad:  :: 1 :: 0 :: 96
tagasi üles
vaata kasutaja infot saada privaatsõnum
jaank
HV veteran

liitunud: 14.01.2007




sõnum 28.02.2025 01:13:13 vasta tsitaadiga

Mis rauaga see tulemus?
Kommentaarid: 63 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 57
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 28.02.2025 01:50:58 vasta tsitaadiga

jaank kirjutas:
Mis rauaga see tulemus?

Profiili raud, 64GB DDR4-3600 RX 7800XT. CPU on Ryzen5 5600X aga see siin täis koormust ei näe, loeb ainult SSD pealt mudeleid sisse ja "swapib" VRAMi ja süsteemi RAMi vahet, kui mudel GPU 16G sisse ära ei mahu.

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
RassK
HV Guru
RassK

liitunud: 17.01.2007



Autoriseeritud ID-kaardiga
sõnum 15.03.2025 05:00:31 vasta tsitaadiga

Mul smart home'i teenindab Qwen2.5 hetkel, üsna hea mudel, eriti kuna on liidestatav (kõik mudelid pole). Muus osas on sama setup Proxmoxil LXC peal: ollama + Open WebUI.

Teisest küljest see "tasuta" jooksutamine on ka nii "suhteline". Et top mudeleid jooksutada on head rauda vaja ja mitte vähe. Kui lihtsalt katsetada, siis vb mõistlikum võtta pilvest Nvidia H100 renti on-demand plaaniga (1-2$/h). Kui juba kodus "production'isse" läheb ja oma privaatse data peal jooksutada (või voice-to-text teha nt whisper ai abil), siis pigem ei usaldaks neid.
Kommentaarid: 117 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 102
tagasi üles
vaata kasutaja infot saada privaatsõnum
lamp
HV Guru
lamp

liitunud: 08.11.2001



Autoriseeritud ID-kaardiga
sõnum 15.03.2025 13:27:07 vasta tsitaadiga

Mingi variant on a la tesla k80, parim raha-to-vram-suhe (24gb ca 100eur).
Neid võib laksida serverisse nii palju kui slotte ja toidet jätkub ja siis vaadata, mis saab.

_________________
eriti julm
Kommentaarid: 191 loe/lisa Kasutajad arvavad:  :: 1 :: 1 :: 168
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
RassK
HV Guru
RassK

liitunud: 17.01.2007



Autoriseeritud ID-kaardiga
sõnum 15.03.2025 19:49:56 vasta tsitaadiga

Selle GPU on väidetavalt liiga nõrk arvutuste jaoks. Odavatest parim 3090 pigem.
Kommentaarid: 117 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 102
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 17.03.2025 01:24:11 vasta tsitaadiga

lamp kirjutas:
Mingi variant on a la tesla k80, parim raha-to-vram-suhe (24gb ca 100eur).
Neid võib laksida serverisse nii palju kui slotte ja toidet jätkub ja siis vaadata, mis saab.

K80 pole just parim lahendus. See pole unified 24GB GPU vaid kaks 12GB GPU'd koku pandud. >12GB mudelid peavad juba kahe GPU vahet jooksma. Mõlemad 384 bit GDDR5 taga mis annab ribalaiuseks 2x240.6 GB/s. Isegi inferencingu jaoks liiga väike ribalaius, GPU compute pole ka just kiita. Suur kivi, palju kuuma, vähe villa.
https://www.techpowerup.com/gpu-specs/tesla-k80.c2616

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
flake
HV veteran

liitunud: 01.05.2003



Autoriseeritud ID-kaardiga
sõnum 18.03.2025 00:47:41 vasta tsitaadiga

Koperdasin ka lokaalse LLMi kraami otsa paar kuud tagasi. Praegu pidama jäänud Gemma mudelite peal. Gemma3 nüüd ka saadaval, minu 4070ga 12b parameetriga mudel jookseb kenasti. 27b läägab ja üle selle pole väga mõtet.
Kasutan ollama + open web UI kombot kui ka LM Studiot, aga ollama + open webUi kuidagi kodusem.

_________________
..||..
Kommentaarid: 63 loe/lisa Kasutajad arvavad:  :: 2 :: 0 :: 60
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 05.08.2025 23:16:19 vasta tsitaadiga

Midagi huvitavat ollamalt
https://github.com/ollama/ollama/releases
Add support for AMD Strix Halo GPUs thumbs_up.gif

Huvitav kas RDNA3.5 GPU on nüüd ainult ROCm suppordiga või osatakse midagi XDNA2 NPUga ka ära teha.

Edit: keda huvitav, siis siin on 2h23min ollama Youtube koolitus Ollama Course – Build AI Apps Locally

Link

RAGi osa tundub suht mõttetu võimlemisega, näiteks Open WebUI's on see juba sisse ehitatud (sama ChromaDB kõhu all vektorbaasina), muidugi üldiselt on väga kasulik teada kuidas RAG toimetab.

Edit:
Palju aega hiljem aga nüüd saab ka ChatGPT4ja kohaliku raua peal jooksutada:
ollama run gpt-oss:20b --verbose
>>> what are you ?
I’m ChatGPT, a large‑language model built by OpenAI based on the GPT‑4 architecture.
eval rate: 81.83 tokens/s

Kaks mudelit praegu saadaval, üks optimeeritud 16G VRAM GPUde ja teine 80G VRAMiga GPUde jaoks https://ollama.com/library/gpt-oss

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
0user
Uus kasutaja

liitunud: 17.08.2025




sõnum 17.08.2025 09:20:32 vasta tsitaadiga

Kas neid suuremaid mudeleid ilma samase RAM-ita ei anna käivitada et puhverdaks nt 2-3x M.2 peale seda mälu efektiivselt?
Ideepoolest RAM-i kiirus vb üle 50gb sec, 3x M.2 SSD vb 10gb+ sec kokku.

Windwowsi swap ilmselt ei vea välja mõistliku ajaga aga ehk linuxil hea configa, proxmox, vmware või spetsiaalne tarkvara mis suudaks?

_________________
Müüa E5 socket 2011 V3 ja V4, 10,14,22 tuumalised CPU-d, SOODSALT .
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 17.08.2025 11:39:59 vasta tsitaadiga

0user kirjutas:
Kas neid suuremaid mudeleid ilma samase RAM-ita ei anna käivitada et puhverdaks nt 2-3x M.2 peale seda mälu efektiivselt?
Ideepoolest RAM-i kiirus vb üle 50gb sec, 3x M.2 SSD vb 10gb+ sec kokku.

Windwowsi swap ilmselt ei vea välja mõistliku ajaga aga ehk linuxil hea configa, proxmox, vmware või spetsiaalne tarkvara mis suudaks?


Mida vähem on mudelil parameetreid, seda vähem nende vahel liiklust ja ribalaiuse vajadus mudeli kasutamise ajal väiksem. Teine aspekt on mille jaoks mudelit kasutada. Kui on reasoning type mudel, millel tahetakse palju iseendaga arutleda lasta, siis kiiruse vajadus on suurem. Samuti kui on vaja koodi kirjutamisel kiiret abi vaja ja pole aega kümneid sekundeid iga liigutuse jaoks oodata. Samas kui taustal lahendab mingeid ticketeid ja pole üldse vahet, kas see saab valmis 10 või 20 sekundiga, peaasi et ülesanne oleks korrektselt lahendatud.
Reaalselt on vaja ca 200-500GB/s mälu, et ca 15 miljardi (Q4_k_m) parameetriga mudelit normaalselt jooksutada, mis võtab ca 10GB VRAMi. Näiteks 8 mälukanaliga EPYC server või mõni 16GB VRAMiga GPU on soovitatav.
Ahjaa, siis on muidugi dataset mida mudelil närida lasta ja kui suureks konfida mudeli enda context memory ehk lühimälu. 10GB/s kiirustega midagi väga asjalikku kahjuks ei jookse, mingeid tillukesi mitte just kõige nutikamaid mõne miljardi parameetriga mudeleid näiteks.

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 17.08.2025 15:40:06 Re: LLMid kohaliku raua peal vasta tsitaadiga

Optimist kirjutas:

Tundub et praegu on levinud kaks frameworki'i LLMide jooksutamiseks. Üks on LM Studio, mis on kinnise koodiga ja äri jaoks tasuline, kuid tuleb kohe karbist kena GUIga ja teine on ollama, mis on avatud koodiga ja ägeda WebAPIga millele pythoni moodul jms olemas, kuid vaikimisi ilma GUIta, on ainult käsurida. Õnneks on ollamale mitmeid GUIsid tehtud, minu enda lemmik on Open WebUI. Seal saab lasta kohalikel mudelitel dokumente analüüsida, pythoni koodi sandboxis jooksutada, kohalikke mudeleid veebi otsinguga netti lasta jne.


Proovisin LM-S' mõnda aega, kuid ollama meeldib rohkem, eriti, kui kasutada koos WebUI ja knowledge funktsiooniga.

Optimist kirjutas:

Kui teema vastu huvi on, võin siin oma beebi skainettide jooksutamisest edasi heietada icon_biggrin.gif


minu beebi skainet vajab maailmavallutusplaanide teostamiseks uut rauda icon_cry.gif

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 17.08.2025 19:06:16 Re: LLMid kohaliku raua peal vasta tsitaadiga

Ollamaga tuleb ka nüüd minimalistlik GUI kaasa. Olen eelistanud Ollamat just mudelite kiiruse pärast. Kohati on vahe isegi kahekordne. gpt-oss tulekuga on aga LM Studio saanud valmis parema MXFP4 toe, kõik gpt-oss mudelid jooksevad mu 7900XTX peal 2x kiiremini just LM Stuudios. Kuna mulle meeldib ka Open WebUI oluliselt rohkem, siis paaritasin LM Studio API ära WebUI'ga ja saan nüüd mõlemat gpt-oss mudelit jooksutada oma lemmik GUI's 2x suurema kiirusega. Miinuseks, et üle selle API ei raporteeri LM Studio kiirust.
AI agentidest ka räägime ? icon_biggrin.gif

Edit: SSD kasutamine punkt kuus https://www.gigabyte.com/consumer/ai-top/
SSD Mounting: Allows users to automatically mount 1 to 2 NVMe SSDs, offloading training memory to SSDs for improved performance.

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 17.08.2025 22:04:58 Re: LLMid kohaliku raua peal vasta tsitaadiga

Optimist kirjutas:
Ollamaga tuleb ka nüüd minimalistlik GUI kaasa. Olen eelistanud Ollamat just mudelite kiiruse pärast. Kohati on vahe isegi kahekordne. gpt-oss tulekuga on aga LM Studio saanud valmis parema MXFP4 toe, kõik gpt-oss mudelid jooksevad mu 7900XTX peal 2x kiiremini just LM Stuudios. Kuna mulle meeldib ka Open WebUI oluliselt rohkem, siis paaritasin LM Studio API ära WebUI'ga ja saan nüüd mõlemat gpt-oss mudelit jooksutada oma lemmik GUI's 2x suurema kiirusega. Miinuseks, et üle selle API ei raporteeri LM Studio kiirust.

Kas see minimalistlik GUI töötab ka windows keskkonnas?

Optimist kirjutas:

AI agentidest ka räägime ? icon_biggrin.gif


Hetkel mitte icon_wink.gif

Optimist kirjutas:

Edit: SSD kasutamine punkt kuus https://www.gigabyte.com/consumer/ai-top/
SSD Mounting: Allows users to automatically mount 1 to 2 NVMe SSDs, offloading training memory to SSDs for improved performance.


VRAM'ist on puudus. Oleks vaja MB rohkemate PCIe x16 pesadega. Kaks on liiga vähe...

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 19.08.2025 02:29:38 Re: LLMid kohaliku raua peal vasta tsitaadiga

degrass kirjutas:
Optimist kirjutas:
Ollamaga tuleb ka nüüd minimalistlik GUI kaasa. Olen eelistanud Ollamat just mudelite kiiruse pärast. Kohati on vahe isegi kahekordne. gpt-oss tulekuga on aga LM Studio saanud valmis parema MXFP4 toe, kõik gpt-oss mudelid jooksevad mu 7900XTX peal 2x kiiremini just LM Stuudios. Kuna mulle meeldib ka Open WebUI oluliselt rohkem, siis paaritasin LM Studio API ära WebUI'ga ja saan nüüd mõlemat gpt-oss mudelit jooksutada oma lemmik GUI's 2x suurema kiirusega. Miinuseks, et üle selle API ei raporteeri LM Studio kiirust.

Kas see minimalistlik GUI töötab ka windows keskkonnas?

Jep.

Igast vahvaid vidinaid saab ka käsurealt käima panna, mis ollamaga trikke teevad. Üks on näiteks utiliit, mis võimaldab mitmel ollama LLMil omavahel suhelda. Mudelite korda-mööda käivitamine võtab muidugi aega (kui kasutada erinevaid mudeleid, saab ka sama mudelit kasutada erineva prompti/juhisega). Soovitav on panna sinna teiste LLMide juurde ka moderaator LLM, kes kirjutab lõpuks kokkuvõtte, mis otsusele mingis küsimuses jõuti jne. llm-conversation https://github.com/famiu/llm_conversation
MCP serveri saab ollamale külge pookida käsurealt (ollmcp https://github.com/jonigl/mcp-client-for-ollama). MCP ehk Model Contect Protocol on umbes nagu wiki aga LLMidele. Saab üle MCP näiteks mingi rakenduse dokumentatsiooni LLMidele selgeks teha. Neid saab mitu LLMidele nähtavaks teha ja MCP serveri võib kasvõi pisikese dockeri peale kohalikku arvutisse jooksma panna. Ise just kasutasin MCP praegu serverit kohalikus arvutis aga pilve mudelile tarkuse jagamiseks. Natuke creepy kui LLM loeb sekundeid üle MCP dokumentatsiooni ja oskab asju hoobilt teha, mis inimestel võtaks tunde (ja mõni ei saaks elu lõpuni asjale pihta).

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
sukelduja
HV Guru
sukelduja

liitunud: 14.06.2007



Autoriseeritud ID-kaardiga
sõnum 19.08.2025 09:40:54 Re: LLMid kohaliku raua peal vasta tsitaadiga

Optimist kirjutas:
degrass kirjutas:
Optimist kirjutas:
Ollamaga tuleb ka nüüd minimalistlik GUI kaasa. Olen eelistanud Ollamat just mudelite kiiruse pärast. Kohati on vahe isegi kahekordne. gpt-oss tulekuga on aga LM Studio saanud valmis parema MXFP4 toe, kõik gpt-oss mudelid jooksevad mu 7900XTX peal 2x kiiremini just LM Stuudios. Kuna mulle meeldib ka Open WebUI oluliselt rohkem, siis paaritasin LM Studio API ära WebUI'ga ja saan nüüd mõlemat gpt-oss mudelit jooksutada oma lemmik GUI's 2x suurema kiirusega. Miinuseks, et üle selle API ei raporteeri LM Studio kiirust.

Kas see minimalistlik GUI töötab ka windows keskkonnas?

Jep.

Igast vahvaid vidinaid saab ka käsurealt käima panna, mis ollamaga trikke teevad. Üks on näiteks utiliit, mis võimaldab mitmel ollama LLMil omavahel suhelda. Mudelite korda-mööda käivitamine võtab muidugi aega (kui kasutada erinevaid mudeleid, saab ka sama mudelit kasutada erineva prompti/juhisega). Soovitav on panna sinna teiste LLMide juurde ka moderaator LLM, kes kirjutab lõpuks kokkuvõtte, mis otsusele mingis küsimuses jõuti jne. llm-conversation https://github.com/famiu/llm_conversation
MCP serveri saab ollamale külge pookida käsurealt (ollmcp https://github.com/jonigl/mcp-client-for-ollama). MCP ehk Model Contect Protocol on umbes nagu wiki aga LLMidele. Saab üle MCP näiteks mingi rakenduse dokumentatsiooni LLMidele selgeks teha. Neid saab mitu LLMidele nähtavaks teha ja MCP serveri võib kasvõi pisikese dockeri peale kohalikku arvutisse jooksma panna. Ise just kasutasin MCP praegu serverit kohalikus arvutis aga pilve mudelile tarkuse jagamiseks. Natuke creepy kui LLM loeb sekundeid üle MCP dokumentatsiooni ja oskab asju hoobilt teha, mis inimestel võtaks tunde (ja mõni ei saaks elu lõpuni asjale pihta).

Huvitav. See on IT dokumentatsioon või mingi tööstusseadme oma?
Kommentaarid: 25 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 25
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 25.08.2025 15:50:37 Re: LLMid kohaliku raua peal vasta tsitaadiga

sukelduja kirjutas:
Huvitav. See on IT dokumentatsioon või mingi tööstusseadme oma?

Kui sa mõtled MCP'd, siis selle sisu saab misiganes olla LLMi vaatest.

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 08.09.2025 01:13:40 vasta tsitaadiga

Optimist kirjutas:
degrass kirjutas:
Niipalju, kui ma testinud olen, saab fp16 ülesandega paremini hakkama, kui q4 mudel.

Võrdle tulemusi 4x rohkemate parameetritega Q4 mudeliga.
Üldiselt on trend sinnapoole, et isegi treenimist ei tehta enam kohati fp16 peal ja ilmselt tulevikus saame näha päris kickass mudeleid mis jooksevad isegi 24/32GB VRAM GPUdel.


Vaatan, et kui mudel VRAM' ära mahub, muudab see 24b mudelil q4 vs q8 ennustamise ca 2tok/sek aeglasemaks, mis ei ole üldse halb. 8b q4 ja fp16 vahe on aga 10tok/sec :O

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 08.09.2025 21:09:11 vasta tsitaadiga

Kogu valmis treenitud mudelit on IMHO suht pointless FP16 parameetritega jooksutada. Sama RAMi hulgaga saab 4x targemat ja 4x suuremate teadmistega Q4/MXPF4 vms 4 baidste parameetritega mudelit jooksutada, mis enamus usa case'ides on palju rohkem väärt. Alla Q4 on aga täpsus praegustel mudelitel asjalikuks kasutamiseks liiga nõrk.
_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 03.10.2025 00:22:12 vasta tsitaadiga

Väga tore, tänasest on allalaetav IBM' Granite perekonna uus mudel thumbs_up.gif
https://ollama.com/library/granite4
https://www.ibm.com/granite/docs

Granite 4.0 models are finetuned from their base models using a combination of open source instruction datasets with permissive license and internally collected synthetic datasets. They feature improved instruction following (IF) and tool-calling capabilities, making them more effective in enterprise applications.

Please Note: our micro model is an alternative option for users when mamba-2 support is not yet optimized.

Parameter Sizes
micro (3B)
micro-h (3B)
tiny-h (7B)
small-h (32B):

"h" mudelite Context window on 1M thumbs_up.gif

Supported Languages
English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch, and Chinese. Users may finetune Granite 4.0 models for languages beyond these languages.
Intended Use

This model is designed to handle general instruction-following tasks and can be integrated into AI assistants across various domains, including business applications.

Capabilities
> Summarization
> Text classification
> Text extraction
> Question-answering
> Retrieval Augmented Generation
> Code related tasks
> Function-calling tasks
> Multilingual dialog use cases
> Fill-In-the-Middle (FIM) code completions

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 07.10.2025 20:36:25 vasta tsitaadiga

degrass kirjutas:
"h" mudelite Context window on 1M thumbs_up.gif


See on rohkem pilve mudelite teema, sest lokaalse raua peal sul pole seda ca 400G RAMi võtta 1M tokeni jaoks. Juba 128K tokeni context window tahab ca 51G RAMi saada
Granite3.3 oli igatahes täielik lammas ja ... noh ega see 4 ka palju parem ei tundu olevat. Arvab et 0.9c kiirusega võiks lähima täheni jõuda 45.4 sekundiga icon_rolleyes.gif

Ise eelistan Granite4 asemel gpt-oss:20b mudelit, väiksem, kiirem ja targem. Gemma3 piltidest aru saamise ja eesti keele jaoks ning QWEN3-coder kui peaks offline progemisassistanti kasutama. Kui kohalikust arvutist vaja max tarkust kätte saada siis 65GB mudel gpt-oss:120b (10-12tps DDR4 peal kui 64GB RAMi olemas)

Edit: Granite4 ... oeh. Isegi kui testülesandele lahenduskäigu ette annan, ei suuda lahendada. Sry aga eriliselt juhm mudel. Claude 4.1 Opus pilve mudeli hinnang:
Grade: C- (compared to F for the first solution)
Since Solution 3 is identical to Solution 2, it gets the same grade: C-

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
RassK
HV Guru
RassK

liitunud: 17.01.2007



Autoriseeritud ID-kaardiga
sõnum 08.10.2025 22:15:22 vasta tsitaadiga

gpt-oss:20b thumbs_up.gif igati rahul hetkel, too mul põhimudel.
Jõuluvana või näärivana võiks natukene rauda veel tuua, et 120b ka GPU peal kasutatavaks teha.
Kommentaarid: 117 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 102
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 09.10.2025 00:20:58 vasta tsitaadiga

RassK kirjutas:
Jõuluvana või näärivana võiks natukene rauda veel tuua, et 120b ka GPU peal kasutatavaks teha.

65GB mäluga GPU ? icon_biggrin.gif Kuna gpt-oss mudelid on MOE, ehk korraga aktiivseid parameetreid on vähe, jookseb see suure mudeli kohta päris hästi ka RAMis.

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 09.10.2025 00:59:06 vasta tsitaadiga

Optimist kirjutas:
RassK kirjutas:
Jõuluvana või näärivana võiks natukene rauda veel tuua, et 120b ka GPU peal kasutatavaks teha.

65GB mäluga GPU ? icon_biggrin.gif Kuna gpt-oss mudelid on MOE, ehk korraga aktiivseid parameetreid on vähe, jookseb see suure mudeli kohta päris hästi ka RAMis.


Võimalik, et ta mõtleb siin paari lisa GPU'd, sest miks ühega piirduda, kui neid saab kaks, kolm, neli jne lisada?

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
RassK
HV Guru
RassK

liitunud: 17.01.2007



Autoriseeritud ID-kaardiga
sõnum 09.10.2025 02:01:54 vasta tsitaadiga

Just, palju hetkel puudu pole, 2x24GB on praegu serveril VRAM. Plaan oli 1-2 GPU'd juurde panna aga raskem oli sobilik korpus leida. Nüüd neid samasid AI'sid piinates leidsin lõpuks ühe, mis nelja massiivset kaarti kannatab.
Kommentaarid: 117 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 102
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 09.10.2025 16:46:08 vasta tsitaadiga

Optimist kirjutas:
RassK kirjutas:
Jõuluvana või näärivana võiks natukene rauda veel tuua, et 120b ka GPU peal kasutatavaks teha.


Kuna gpt-oss mudelid on MOE, ehk korraga aktiivseid parameetreid on vähe, jookseb see suure mudeli kohta päris hästi ka RAMis.


Ma vaatan, et see 120B toimetab isegi minu igivanal kirjutusmasinal. Muidugi, context length suurendamise ning suurema andmekogu ettesöötmisel kukkus ennustuskiirus. Peab natuke testima, kui adekvaatne see on. Igatahes ennustab see kiiremini kui LLama3.3:70B

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 09.10.2025 23:59:20 vasta tsitaadiga

degrass kirjutas:
Võimalik, et ta mõtleb siin paari lisa GPU'd, sest miks ühega piirduda, kui neid saab kaks, kolm, neli jne lisada?


Consumer GPUdega on see häda, et näiteks 4090 ja 7900XTX GDDR6 kiirus on ca 1TB/s. Kui nüüd tahad joosa suurt LLMi, mis ühte GPUsse ära ei mahu, siis GPU'de omavaheline suhtlus käib üle PCIe4 x16 siini mille ribalaius on masendavad 64 GB/s. Nii kui LLM dropib GPUst märkimisväärselt välja, kukub perf kolinal kuni ca 15x. Samas mitut väiksemat mudelit korraga jooksutada, mis GPU VRAMi ära mahub on väga tore. Saab näiteks ülesanded pooleks jagada, ühel on roll X ja teisel Y. See täitsa töötab.

Ma ise täna avastasin et igast dockeri konteinerite manageerimine hakkab vaikselt keeruliseks minema. Näiteks mis selle pool aastat tagasi tehtud konteineri rakenduse port oligi ? On kõik selle konteineri komponendid ikka turva aukudeta ? On kõikidest asjadest ikka backup olemas ? Kas mõni konteiner võtab 100% CPUd taustal ? Jne jne. Progesin täna endale Claude Sonnet 4.5 abiga gpt-oss:20b mudelit kasutava väikse dockeri keskkonna abilise. Esialgu saab asju ainult vaadata (logid, ketta/CPU/võrgu kasutus jne) aga plaanis on ta panna backuppide eest vastutama ja edasi juba kogu keskkonna adminniks promotida. Vaatab, et kõik oleks up-do-date, secure and aitab püsti, kui midagi käpuli lendab.


Eesti keelest saab ka aru aga kõik käitumisalased juhendid on antud inglise keeles praegu, seega vastab inglise keeles (kui just eraldi ei palu vastust eesti keeles). Teoorias lihtne muuta, kui tahta.

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
RassK
HV Guru
RassK

liitunud: 17.01.2007



Autoriseeritud ID-kaardiga
sõnum 10.10.2025 00:33:06 vasta tsitaadiga

Optimist kirjutas:

Consumer GPUdega on see häda, et näiteks 4090 ja 7900XTX GDDR6 kiirus on ca 1TB/s. Kui nüüd tahad joosa suurt LLMi, mis ühte GPUsse ära ei mahu, siis GPU'de omavaheline suhtlus käib üle PCIe4 x16 siini mille ribalaius on masendavad 64 GB/s. Nii kui LLM dropib GPUst märkimisväärselt välja, kukub perf kolinal kuni ca 15x. Samas mitut väiksemat mudelit korraga jooksutada, mis GPU VRAMi ära mahub on väga tore. Saab näiteks ülesanded pooleks jagada, ühel on roll X ja teisel Y. See täitsa töötab.


Saab siis proovida, palju see bottleneck märku annab. Nagunii mega massiivseid kodus jooksutada ei õnnestu.
PCIe 4.0 praktiline on veel madalam 28-30 GB/s. Väidetavalt on ceiling seetõttu 7.1k tok/s, seega nagu ruumi peaks olema.

Minu rig jooksutab gpt-oss:120b 5.5 tok/s. Väidetavalt 3x 3090 teeb seda kuskil 100 tok/s. Ja võrdluseks jälle minu oma gpt-oss:20b, ehk siis väiksem ca 167 tok/s.

Optimist kirjutas:

Ma ise täna avastasin et igast dockeri konteinerite manageerimine hakkab vaikselt keeruliseks minema. Näiteks mis selle pool aastat tagasi tehtud konteineri rakenduse port oligi ? On kõik selle konteineri komponendid ikka turva aukudeta ? On kõikidest asjadest ikka backup olemas ? Kas mõni konteiner võtab 100% CPUd taustal ? Jne jne. Progesin täna endale Claude Sonnet 4.5 abiga gpt-oss:20b mudelit kasutava väikse dockeri keskkonna abilise. Esialgu saab asju ainult vaadata (logid, ketta/CPU/võrgu kasutus jne) aga plaanis on ta panna backuppide eest vastutama ja edasi juba kogu keskkonna adminniks promotida. Vaatab, et kõik oleks up-do-date, secure and aitab püsti, kui midagi käpuli lendab.


Porte ma ka meelde ei jäta, pigem annad internal domeeni ja lased selle läbi proxy.
Mis puutub turvaaukudesse, siis ega seal suurt endal midagi teha pole, peale selle, et jooksutad latest versiooni. Seega nt watchtower teeb selle ära.
Kui sa tahad, et mingi märk jääb, siis võib ka nii teha, et dockeri conf on Git repos (Github, Gitlab). Dependabot käib üle ja kontrollib docker compose failid üle ja teeb PRi kui conf vana. PR merge peale saad juba auto deploy teha. Mõnikord on breaking changed sees, seega ma poleks 100% kindel, et LLM sellega hakkama saab. Arvestades lisaks viimaseid supply chain attack'e, siis latest auto merge on ka väga riskantne tegu.
Kommentaarid: 117 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 102
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 10.10.2025 10:50:20 vasta tsitaadiga

RassK kirjutas:
Porte ma ka meelde ei jäta, pigem annad internal domeeni ja lased selle läbi proxy.
Mis puutub turvaaukudesse, siis ega seal suurt endal midagi teha pole, peale selle, et jooksutad latest versiooni. Seega nt watchtower teeb selle ära.
Kui sa tahad, et mingi märk jääb, siis võib ka nii teha, et dockeri conf on Git repos (Github, Gitlab). Dependabot käib üle ja kontrollib docker compose failid üle ja teeb PRi kui conf vana. PR merge peale saad juba auto deploy teha. Mõnikord on breaking changed sees, seega ma poleks 100% kindel, et LLM sellega hakkama saab. Arvestades lisaks viimaseid supply chain attack'e, siis latest auto merge on ka väga riskantne tegu.

Mul need 30+ nime ka meeles ei püsiks, dashboardi pealt neid OK lahti vajadusel klikata. Watchtower on olemas aga pigem laseks LLMil Watchtoweri tegemistel silma peal hoida, kui mõni update ei lähe plaanipäraselt või läheb sinna sisse nüüd midagi, mis ei peaks seal olema.
Üldiselt suht happy kui hästi siiani gpt-oss:20b saab hakkama kõikide nende tool callidega dockeri keskkonnast ülevaate saamiseks. Kõik käsud käivad üle API, direct shell access QNAPi käsureale pole siin hea mõte.

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
Dirty Harry
HV Guru
Dirty Harry

liitunud: 05.09.2002



Autoriseeritud ID-kaardiga
sõnum 01.02.2026 14:01:33 vasta tsitaadiga

Kas OpenClaw'd on ka keegi proovinud? https://openclaw.ai/

Vahel olen mõtelnud, et võtaks kusagilt mõne Apple Siliconiga Mac Mini ja prooviks ka LLMi lokaalselt järgi. Muidugi kogu see turvapool (prompt injection) ajab ihukarvad püsti, aga kui äkki isoleeritult proovida...
Kommentaarid: 186 loe/lisa Kasutajad arvavad:  :: 1 :: 1 :: 147
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 01.02.2026 14:56:54 vasta tsitaadiga

Dirty Harry kirjutas:
Kas OpenClaw'd on ka keegi proovinud? https://openclaw.ai/

Vahel olen mõtelnud, et võtaks kusagilt mõne Apple Siliconiga Mac Mini ja prooviks ka LLMi lokaalselt järgi. Muidugi kogu see turvapool (prompt injection) ajab ihukarvad püsti, aga kui äkki isoleeritult proovida...


Ei ole proovinud, kuid tundub huvitav.
LLM jaoks ei ole sul Mac´i vaja. Katsetamiseks sobib suvaline (kirjutus)masin, millele saab paar GPU külge ühendada. VRAM on minu silmis peamine kitsaskoht.

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Dirty Harry
HV Guru
Dirty Harry

liitunud: 05.09.2002



Autoriseeritud ID-kaardiga
sõnum 01.02.2026 20:27:24 vasta tsitaadiga

Seda jah. Lihtsalt, et pole neid masinaid ja GPUsid vedelemas, apple siliconi puhul saaks mitu asja korraga.
Kommentaarid: 186 loe/lisa Kasutajad arvavad:  :: 1 :: 1 :: 147
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 01.02.2026 21:42:25 vasta tsitaadiga

Dirty Harry kirjutas:
Seda jah. Lihtsalt, et pole neid masinaid ja GPUsid vedelemas, apple siliconi puhul saaks mitu asja korraga.


Võta mõni HV müüdavatest 100€ kastidest ning lisa sellele 1-2 GPU'd, miski paarisajaga peaks harjutamiseks töötava masina saama.
RAM võiks olla 2x VRAM

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Etz
HV Guru
Etz

liitunud: 27.01.2005



Autoriseeritud ID-kaardiga
sõnum 01.02.2026 22:23:17 vasta tsitaadiga

https://github.com/microsoft/BitNet icon_rolleyes.gif

Milleks GPU'd? icon_lol.gif

_________________
...life is random...so am I...
So, there is a fan. Time to grab your sh*t, gentlemen!
Kommentaarid: 236 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 196
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 01.02.2026 22:58:20 vasta tsitaadiga

Lihtsamad mudelid nagu llama3.2 saab üldse GPU peal ära jooksutada. Phi-4 lippab ka suht enamvähem CPU peal. Edasi on juba GPU maailm. Alla 16GB VRAMiga GPUd pole mõtet LLMide jooksutamiseks osta.
_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 01.02.2026 23:47:51 vasta tsitaadiga

Optimist kirjutas:
Lihtsamad mudelid nagu llama3.2 saab üldse GPU peal ära jooksutada. Phi-4 lippab ka suht enamvähem CPU peal. Edasi on juba GPU maailm. Alla 16GB VRAMiga GPUd pole mõtet LLMide jooksutamiseks osta.


Kõik on õige, kuid õppimiseks on 6-8GB täiesti piisav. Mingist ulme GPU-AI serverist on vähe kasu, kui sellele ei ole rakendust.
Pigem peaksime soodustama alustamist, sest kui on olemas hea idee, leab sellele alati rahastuse.

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Dirty Harry
HV Guru
Dirty Harry

liitunud: 05.09.2002



Autoriseeritud ID-kaardiga
sõnum 02.02.2026 10:40:19 vasta tsitaadiga

degrass kirjutas:
Dirty Harry kirjutas:
Seda jah. Lihtsalt, et pole neid masinaid ja GPUsid vedelemas, apple siliconi puhul saaks mitu asja korraga.


Võta mõni HV müüdavatest 100€ kastidest ning lisa sellele 1-2 GPU'd, miski paarisajaga peaks harjutamiseks töötava masina saama.
RAM võiks olla 2x VRAM
Ma ei ole kindel, et see odavam tuleks. Asjade kokkuotsimine võtab mingid tunnid, pigem päevad (aeg on raha), lisaks kokkuladumine. 50€ per GPU, see on miski RX 480/580 vist, korralikku toidet on vaja kastile, mis ei pruugi sotises olla. 32GB RAM - jälle, kas on sotises? Tulemuseks on igaljuhul mürisev kast, mis võtab elektrit märksa rohkem kui uuem Mac Mini (mis on ca 800€ uuena).

Aga üldiselt ma ei taha liiga palju teoretiseerida praegu teemal, mida väga ei tunne. Vbolla võtan millalgi mõne käepärase apple siliconiga mäki läpaka ja proovin järgi.

EDIT: mainisin ülal turvat. Lokaalse LLMi puhul on tuva ülioluline, populaarse Ollama kehvastikofitud isendeid leiab palju üle maailma. https://thehackernews.com/2026/01/researchers-find-175000-publicly.html
Kommentaarid: 186 loe/lisa Kasutajad arvavad:  :: 1 :: 1 :: 147
tagasi üles
vaata kasutaja infot saada privaatsõnum
RassK
HV Guru
RassK

liitunud: 17.01.2007



Autoriseeritud ID-kaardiga
sõnum 02.02.2026 13:07:31 vasta tsitaadiga

Ise väga happy küll nende väikeste mudelite üle pole, enamus tööd teevad ära 20B/32B mudelid, mille jaoks ikka vaja rauda. Korra mängimiseks tore küll 6-8GB aga fun saab kiirelt otsa.

Lisaks ei ole seal turva poolelt ka midagi hullu, nagu iga teine äpp kohalikus võrgus. Eestis jääb lisaks enamus lollusi NAT taha kui pordid on üldse avatud. Kui 0.0.0.0 bindiga midagi avalikku võrku satub, siis on terve kohalik võrk juba õhku lastud.
Kommentaarid: 117 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 102
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 02.02.2026 13:19:59 vasta tsitaadiga

Dirty Harry kirjutas:
degrass kirjutas:
Dirty Harry kirjutas:
Seda jah. Lihtsalt, et pole neid masinaid ja GPUsid vedelemas, apple siliconi puhul saaks mitu asja korraga.


Võta mõni HV müüdavatest 100€ kastidest ning lisa sellele 1-2 GPU'd, miski paarisajaga peaks harjutamiseks töötava masina saama.
RAM võiks olla 2x VRAM
Ma ei ole kindel, et see odavam tuleks. Asjade kokkuotsimine võtab mingid tunnid, pigem päevad (aeg on raha), lisaks kokkuladumine. 50€ per GPU, see on miski RX 480/580 vist, korralikku toidet on vaja kastile, mis ei pruugi sotises olla. 32GB RAM - jälle, kas on sotises? Tulemuseks on igaljuhul mürisev kast, mis võtab elektrit märksa rohkem kui uuem Mac Mini (mis on ca 800€ uuena).

Aga üldiselt ma ei taha liiga palju teoretiseerida praegu teemal, mida väga ei tunne. Vbolla võtan millalgi mõne käepärase apple siliconiga mäki läpaka ja proovin järgi.



Endale lihtsalt nokitsemise ja katsetamise mõttes, piiratud eelarve juures, on 800€ Mac'i soetamine liiast. Iseasi muidugi, kui Mac on eesmärk.
Mingit hullu elektriarvet see kast tegema ei hakka, kuna enamuse ajast tiksub see niisama. Kui sa suudad välja mõelda sellele (LLM) kastile rakenduse, leiad võimaluse parema soetamiseks.
Oluline on alustada, mitte üle mõelda.

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
1dumbpcuser
HV Guru

liitunud: 05.03.2002



Autoriseeritud ID-kaardiga
sõnum 02.02.2026 15:07:53 vasta tsitaadiga

Kas puhtalt VRAMi mõttes on mitu videokaarti ühes masinas mõttetu kuna kogu vram küll suureneb, aga omavahel käib suhtlus ikka üle PCI-E siini ehk sama hästi võiks kasutada rami? icon_rolleyes.gif
_________________
M: MSI B660M MORTAR
M: Dell RTX 2060
M: Telia ARRIS 5305 UHK 4k digiboksid, 2tk
Kommentaarid: 102 loe/lisa Kasutajad arvavad:  :: 1 :: 0 :: 97
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
RassK
HV Guru
RassK

liitunud: 17.01.2007



Autoriseeritud ID-kaardiga
sõnum 02.02.2026 16:02:42 vasta tsitaadiga

GPUde omavaheline suhtlus on suht olematu võrreldes mudeli laadimisega. Mudeli laadimine käib ainult korra (kui just kohe peale interactioni maha ei laadi seda).
Kommentaarid: 117 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 102
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 19.03.2026 21:04:18 vasta tsitaadiga

Mingi nädalake on Nemotron-3-super:120b ollamast allalaetav:
https://ollama.com/library/nemotron-3-super

Põgusa kasutamise järe tundub täitsa asjalik. Halb on see, et ennustab minul CPU pealt ning kompab sellega minu igivana kirjutusmasin võimete piire icon_neutral.gif
Arvestades siiski ennustamise kiirust, võiks see uuemal masinal täitsa kasutatav olla, eeldusel, et on piisavalt mälu.
CLI' kasutades näitab ka mõtlemisprotsessi, ollamas aga kahjuks mitte.

Spoiler Spoiler Spoiler

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 04.04.2026 01:15:17 vasta tsitaadiga

degrass kirjutas:
Mingi nädalake on Nemotron-3-super:120b ollamast allalaetav:
https://ollama.com/library/nemotron-3-super

Põgusa kasutamise järe tundub täitsa asjalik. Halb on see, et ennustab minul CPU pealt ning kompab sellega minu igivana kirjutusmasin võimete piire icon_neutral.gif
Arvestades siiski ennustamise kiirust, võiks see uuemal masinal täitsa kasutatav olla, eeldusel, et on piisavalt mälu.
CLI' kasutades näitab ka mõtlemisprotsessi, ollamas aga kahjuks mitte.

Spoiler Spoiler Spoiler


Nemotron-Cascade-2 nüüd väljas, mis teoorias paremini treenitud versioon Nemotron-3 seeriast. See reasoning/thinking näitamine ja juhtimine on suht lihtne teema. Suvaline pädev pilve mudel suudab sekunditega sobiva GUI ollama API otsa teha.

Eile tuli ollamale välja Gemma4 https://ollama.com/library/gemma4
Tegin mõned kiired testid ja erinevalt Nemotron-3-nano versioonist, millel reasoning/thinking (/set nothink) välja lülitamine muutis mudeli päris rumalaks, suutis Gemma4:26b oma pädevuse mu testülesannetes säilitada. Olin väga positiivselt üllatunud.

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 04.04.2026 03:12:32 vasta tsitaadiga

Optimist kirjutas:


Nemotron-Cascade-2 nüüd väljas, mis teoorias paremini treenitud versioon Nemotron-3 seeriast. See reasoning/thinking näitamine ja juhtimine on suht lihtne teema. Suvaline pädev pilve mudel suudab sekunditega sobiva GUI ollama API otsa teha.

Eile tuli ollamale välja Gemma4 https://ollama.com/library/gemma4
Tegin mõned kiired testid ja erinevalt Nemotron-3-nano versioonist, millel reasoning/thinking (/set nothink) välja lülitamine muutis mudeli päris rumalaks, suutis Gemma4:26b oma pädevuse mu testülesannetes säilitada. Olin väga positiivselt üllatunud.


Gemma4 tundub esmase proovimise põhjal täiesti kasutatav.
'26B' mudel järgis kenasti minu testülesande lahendamise juhendit, samas 'e4B' täitis küll ülesande, kuid ei järginud vastuse kujundusreegleid.
'nemotron-3-nano:4b-bf16' sai samuti testülesande lahendamisega kenasti hakkama ning järgis kujundusreegleid, mis on hea.

Testülesanne on juhend, kuidas hinnata eelmise tööprotsessi väljundit ja vastavalt sellele koostada vastus.

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Dirty Harry
HV Guru
Dirty Harry

liitunud: 05.09.2002



Autoriseeritud ID-kaardiga
sõnum 14.04.2026 12:22:13 vasta tsitaadiga

Kuna HV pani selle põhilise AI plärateema peitu ära ja kinni, siis oligi hea põhjus lokaalset LLMi uurida. Ollama + gemma'sid (2 ja 4, ) peamiselt proovisin mäki peal (M2 Pro, 16GB RAM). Mingi mulje on olemas.

1. Kui tahaks eesti keeles suhelda, anda eestikeelseid dokumente ette töötlemiseks ja mudimiseks, mis mudel selleks hea oleks? Võivad olla ka suuremad mudelid ja aeganõudvamad, tahaks just aru saada, mis üldse sobib.
2. Sama küsimus piltide kohapealt, kui anda oma pilt ette ja paluda seda LLMil töödelda, muuta, selle põhjal midagi muud luua - jälle, mis oleks hea?

Tahaks just mudelisoovitusi, et saaks siis edasi minna.
Kommentaarid: 186 loe/lisa Kasutajad arvavad:  :: 1 :: 1 :: 147
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 16.04.2026 23:39:02 vasta tsitaadiga

Dirty Harry, väikesed mudelid suudavad täita ühte kindlat, väga piiratud ülesannet, millele nad vastavad etteantud reeglite järgi. Suhtlemiseks on nad täiesti kasutud.
Sa pead välja mõtlema kindla ülesande, mida LLM tegema peab. Siis annad talle ette Prompti. Ma lasin Opusel testimse eesmärgil mõned koostada.
Enamasti nad suudava eestikeelsetest küsimustest aru saada, kuid vastata lase ainult inglise keeles.

All on vastuse formaat kuidas nad peavad vastama. Prompt ise on ca 250 rida pikk



...

## STEP 4 — OUTPUT FORMAT

When responding to a query, always use this exact format:

PARAMETER:
PATIENT AGE / GROUP: [Adult / Senior / Male / Female ]
RESULT: [value — no units]
PRE-ANALYTICAL FLAGS: [None confirmed / list flags from Step 0]
SEDIMENT STATUS: [Inactive — UPC interpretable / Active — UPC unreliable / Not provided]
CLASSIFICATION: [Non-proteinuric / Borderline proteinuric / Proteinuric]
INTERPRETATION: [1–2 sentences, hedged language]
LIKELIHOOD ASSESSMENT: [Low / Indeterminate / High concern for renal proteinuria]
RECOMMENDED NEXT STEPS:
  1. [action]
  2. [action]
  3. [action]
CROSS-MODULE NOTES: [if relevant / None]

---



Pilte ei oska kommenteerida.


PS. see plärateema on jälle tagasi. thumbs_down.gif thumbs_down.gif thumbs_down.gif

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
RassK
HV Guru
RassK

liitunud: 17.01.2007



Autoriseeritud ID-kaardiga
sõnum 17.04.2026 02:38:34 vasta tsitaadiga

Dirty Harry kirjutas:

1. Kui tahaks eesti keeles suhelda, anda eestikeelseid dokumente ette töötlemiseks ja mudimiseks, mis mudel selleks hea oleks? Võivad olla ka suuremad mudelid ja aeganõudvamad, tahaks just aru saada, mis üldse sobib.


GPT-OSS:20B / GPT-OSS:120B on suht arvestava eesti keele oskusega. Vähem tähtsad ei ole system prompt, mis talle tööks ette antud on ja ka tööriistad, mis erinevad dokumendid arusaadavaks LLMile teevad.

Dirty Harry kirjutas:

2. Sama küsimus piltide kohapealt, kui anda oma pilt ette ja paluda seda LLMil töödelda, muuta, selle põhjal midagi muud luua - jälle, mis oleks hea?

Tahaks just mudelisoovitusi, et saaks siis edasi minna.


See on juba vähe keerulisem osa. Seal ei ole ühte kindlat mudelit - pildi kokkupanekuks kulub mitmeid mudeleid, igal ühel oma ülesanne. Pane Comfyui peale ja otsi flux või qwen image to image workflow template.
Kommentaarid: 117 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 102
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 01.05.2026 13:02:46 vasta tsitaadiga

Peale mõningast vaikust avaldati see nädal päris mitu uut mudelit:

mistral-medium-3.5 128B
tsitaat:

Mistral Medium 3.5 is Mistral’s first flagship merged model. It is a dense 128B model with a 256k context window, handling instruction-following, reasoning, and coding in a single set of weights. Mistral Medium 3.5 replaces its predecessor Mistral Medium 3.1 and Magistral in Le Chat. It also replaces Devstral 2 in our coding agent Vibe. Concretely, expect better performance for instruct, reasoning and coding tasks in a new unified model in comparison with Mistral’s previous released models
https://ollama.com/library/mistral-medium-3.5/tags



nemotron3 33B
tsitaat:
NVIDIA Nemotron 3 Nano Omni is a multimodal large language model that unifies video, audio, image, and text understanding to support enterprise-grade Q&A, summarization, transcription, and document intelligence workflows.
https://ollama.com/library/nemotron3/tags


granite4.1
tsitaat:
Granite 4.1 language models are a family of state-of-the-art open foundation models featuring dense decoder-only architectures in three sizes — 3B, 8B, and 30B. They natively support multilingual capabilities, a wide range of coding tasks, retrieval-augmented generation (RAG), tool usage, and structured JSON output.
https://ollama.com/library/granite4.1/tags


Esimest kahte ei ole proovinud, kuid granite näib põgusal proovimisel päris asjalik ja jälgib päris hästi etteantud juhiseid.

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga
sõnum 02.05.2026 21:55:33 vasta tsitaadiga

Mu viimase aja lemmik on Gemma4, minu üllatuseks kirjutab isegi koodi paremini kui qwen3-coder.
Granite 3 ja 4 versioonid olid kõige jubedamad LLMid millega üldse kokku puutusin icon_biggrin.gif Kunagi ei tunnistanud vigu ja täiesti võimetud oma vigadest õppima, selle asemel hakkasid kasutajale valetama. Hoian heaga eemale.
Medium Mistral 3.5 on 80GB Q4 variandis ... SSD ruumist hakkab kahju icon_biggrin.gif

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
näita postitusi alates eelmisest:   
uus teema   vasta Tarkvara »  Tarkvara »  LLMid kohaliku raua peal mine lehele 1, 2  järgmine
[vaata eelmist teemat] [vaata järgmist teemat]
 lisa lemmikuks
näita foorumit:  
 ignoreeri teemat 
sa ei või postitada uusi teemasid siia foorumisse
sa ei või vastata selle foorumi teemadele
sa ei või muuta oma postitusi selles foorumis
sa ei või kustutada oma postitusi selles foorumis
sa ei või vastata küsitlustele selles foorumis
sa ei saa lisada manuseid selles foorumis
sa võid manuseid alla laadida selles foorumis



Hinnavaatlus ei vastuta foorumis tehtud postituste eest.