LLMid kohaliku raua peal :: Hinnavaatluse Foorumid

Optimist · HV veteran liitunud: 18.11.2008

Heia mõtlesin teen teema suurte keelemudelite jooksutamisest kohaliku raua peal.

Tundub et praegu on levinud kaks frameworki'i LLMide jooksutamiseks. Üks on LM Studio, mis on kinnise koodiga ja äri jaoks tasuline, kuid tuleb kohe karbist kena GUIga ja teine on ollama, mis on avatud koodiga ja ägeda WebAPIga millele pythoni moodul jms olemas, kuid vaikimisi ilma GUIta, on ainult käsurida. Õnneks on ollamale mitmeid GUIsid tehtud, minu enda lemmik on Open WebUI. Seal saab lasta kohalikel mudelitel dokumente analüüsida, pythoni koodi sandboxis jooksutada, kohalikke mudeleid veebi otsinguga netti lasta jne.

ollama Windowsi all käima saamine on väga lihtne. https://ollama.com/download tõmbad exe alla, paned käima. Kõik seadistus toimub automaatselt, toetatud GPUde puhul kasutab GPUd, kui mitte siis CPUd. Command line'ilt või powershellist saab alla tõmmata endale mudeli. Neid on nagu kirjusid koeri https://ollama.com/search Mida rohkem on mudelil parameetreid, seda targem ta on aga seda aeglasemalt jookseb. Mudeli valik sõltub raua võimekusest. kirjutades käsureale näiteks ollama pull phi4 tõmbab ollama alla 14.7 miljardise parameetriga Microsofti phi4 mudeli.
Käivitamiseks ollama run phi4 ja läheb lahti. Natuke võtab aega mudeli mällu lugemine ja chatbot on olemas. Kui tahad mudeli kiirust mõõta, siis "ollama run <mudeli nimi> --verbose"

Alla 30B parameetriga LLMid eesti keelega just ei hiilga, parimaid vastuseid saab inglise keeles suheldes. Stiilinäide gemma2:27B eesti keele oskuse kohta:

ollama run gemma2:27B --verbose
>>> mis tähendab käru keerama ?
"Käru keerama" on eesti keelne väljend, mis tavaliselt kasutatakse **lastevanemate poolt**. See tähendab **beebi
või väikelapsega jalutamist**, eriti pikemal ja aktiivsemal reisil.

Näiteks: "Täna olime kogu pere metsas ja käru keerasin üle kolme kilomeetri."

Lisaks sellele tavapärasele tähendusele, võib väljend olla ka **metafooriline**. Näiteks:

* "Ta on elu käru keeranud nii kaua, et nüüd on ta väsinud." (tähendab, et inimene on kogenud palju ja on nüüd
väsinud.)
* "Me peame oma plaane ümber hindama ja käru uues suunas keerata." (tähendab, et tuleb teha drastilisi muudatusi.)

Seega sõltub "käru keerama" täpne tähendus kontekstist.

total duration: 26.9107246s
load duration: 25.2972ms
prompt eval count: 19 token(s)
prompt eval duration: 1.049s
prompt eval rate: 18.11 tokens/s
eval count: 234 token(s)
eval duration: 25.834s
eval rate: 9.06 tokens/s

Tavaliselt küsitakse mida saab LLMidega teha. Sama hästi võiks küsida, mida saab inimmõistusega teha. LLM saab olla programmeerimise abiline, kellegi hääle kloonija, teadusartiklite seletaja ja veel miljon kasutust mida ilmselt näema lähiaastakümnetel ilmumas. Täna veel ei ole iga probleemi lahendamiseks sobivat LLMi mudelit aga kuna erinevaid LLMi mudeleid on praeguseks juba üle miljoni, siis on ainult aja küsimus millal iga asja hästi tegemiseks on oma optimaalne LLM.
Jah kohalikud mudelid on vähem võimekamad kui pilve põhised serveritel jooksvad GPT-4o (tuntud ka kui ChatGPT), Gemini 2.0 Pro, Cloude 3.7 Sonnet jpt aga neid saab tasuta omal raual jooksutada ja lihtsamate ülesannetega saavad nad peaaegu sama hästi hakkama.

Kui teema vastu huvi on, võin siin oma beebi skainettide jooksutamisest edasi heietada

erick · HV Guru liitunud: 24.01.2003

Heieta aga! Loeks huviga!

jaank · HV veteran liitunud: 14.01.2007

Mis rauaga see tulemus?

Optimist · HV veteran liitunud: 18.11.2008

RassK · HV Guru liitunud: 17.01.2007

Mul smart home'i teenindab Qwen2.5 hetkel, üsna hea mudel, eriti kuna on liidestatav (kõik mudelid pole). Muus osas on sama setup Proxmoxil LXC peal: ollama + Open WebUI.

Teisest küljest see "tasuta" jooksutamine on ka nii "suhteline". Et top mudeleid jooksutada on head rauda vaja ja mitte vähe. Kui lihtsalt katsetada, siis vb mõistlikum võtta pilvest Nvidia H100 renti on-demand plaaniga (1-2$/h). Kui juba kodus "production'isse" läheb ja oma privaatse data peal jooksutada (või voice-to-text teha nt whisper ai abil), siis pigem ei usaldaks neid.

lamp · HV Guru liitunud: 08.11.2001

Mingi variant on a la tesla k80, parim raha-to-vram-suhe (24gb ca 100eur).
Neid võib laksida serverisse nii palju kui slotte ja toidet jätkub ja siis vaadata, mis saab.

RassK · HV Guru liitunud: 17.01.2007

Selle GPU on väidetavalt liiga nõrk arvutuste jaoks. Odavatest parim 3090 pigem.

Optimist · HV veteran liitunud: 18.11.2008

flake · HV veteran liitunud: 01.05.2003

Koperdasin ka lokaalse LLMi kraami otsa paar kuud tagasi. Praegu pidama jäänud Gemma mudelite peal. Gemma3 nüüd ka saadaval, minu 4070ga 12b parameetriga mudel jookseb kenasti. 27b läägab ja üle selle pole väga mõtet.
Kasutan ollama + open web UI kombot kui ka LM Studiot, aga ollama + open webUi kuidagi kodusem.

Optimist · HV veteran liitunud: 18.11.2008

Midagi huvitavat ollamalt
https://github.com/ollama/ollama/releases
Add support for AMD Strix Halo GPUs

Huvitav kas RDNA3.5 GPU on nüüd ainult ROCm suppordiga või osatakse midagi XDNA2 NPUga ka ära teha.

Edit: keda huvitav, siis siin on 2h23min ollama Youtube koolitus Ollama Course – Build AI Apps Locally

Link

RAGi osa tundub suht mõttetu võimlemisega, näiteks Open WebUI's on see juba sisse ehitatud (sama ChromaDB kõhu all vektorbaasina), muidugi üldiselt on väga kasulik teada kuidas RAG toimetab.

Edit:
Palju aega hiljem aga nüüd saab ka ChatGPT4ja kohaliku raua peal jooksutada:
ollama run gpt-oss:20b --verbose
>>> what are you ?
I’m ChatGPT, a large‑language model built by OpenAI based on the GPT‑4 architecture.
eval rate: 81.83 tokens/s

Kaks mudelit praegu saadaval, üks optimeeritud 16G VRAM GPUde ja teine 80G VRAMiga GPUde jaoks https://ollama.com/library/gpt-oss

0user · Uus kasutaja liitunud: 17.08.2025

Kas neid suuremaid mudeleid ilma samase RAM-ita ei anna käivitada et puhverdaks nt 2-3x M.2 peale seda mälu efektiivselt?
Ideepoolest RAM-i kiirus vb üle 50gb sec, 3x M.2 SSD vb 10gb+ sec kokku.

Windwowsi swap ilmselt ei vea välja mõistliku ajaga aga ehk linuxil hea configa, proxmox, vmware või spetsiaalne tarkvara mis suudaks?

Optimist · HV veteran liitunud: 18.11.2008

degrass · HV kasutaja liitunud: 23.12.2004

Optimist · HV veteran liitunud: 18.11.2008

Ollamaga tuleb ka nüüd minimalistlik GUI kaasa. Olen eelistanud Ollamat just mudelite kiiruse pärast. Kohati on vahe isegi kahekordne. gpt-oss tulekuga on aga LM Studio saanud valmis parema MXFP4 toe, kõik gpt-oss mudelid jooksevad mu 7900XTX peal 2x kiiremini just LM Stuudios. Kuna mulle meeldib ka Open WebUI oluliselt rohkem, siis paaritasin LM Studio API ära WebUI'ga ja saan nüüd mõlemat gpt-oss mudelit jooksutada oma lemmik GUI's 2x suurema kiirusega. Miinuseks, et üle selle API ei raporteeri LM Studio kiirust.
AI agentidest ka räägime ?

Edit: SSD kasutamine punkt kuus https://www.gigabyte.com/consumer/ai-top/
SSD Mounting: Allows users to automatically mount 1 to 2 NVMe SSDs, offloading training memory to SSDs for improved performance.

degrass · HV kasutaja liitunud: 23.12.2004

Optimist · HV veteran liitunud: 18.11.2008

sukelduja · HV Guru liitunud: 14.06.2007

Optimist · HV veteran liitunud: 18.11.2008

degrass · HV kasutaja liitunud: 23.12.2004

Optimist · HV veteran liitunud: 18.11.2008

Kogu valmis treenitud mudelit on IMHO suht pointless FP16 parameetritega jooksutada. Sama RAMi hulgaga saab 4x targemat ja 4x suuremate teadmistega Q4/MXPF4 vms 4 baidste parameetritega mudelit jooksutada, mis enamus usa case'ides on palju rohkem väärt. Alla Q4 on aga täpsus praegustel mudelitel asjalikuks kasutamiseks liiga nõrk.

degrass · HV kasutaja liitunud: 23.12.2004

Väga tore, tänasest on allalaetav IBM' Granite perekonna uus mudel

https://ollama.com/library/granite4
https://www.ibm.com/granite/docs

Granite 4.0 models are finetuned from their base models using a combination of open source instruction datasets with permissive license and internally collected synthetic datasets. They feature improved instruction following (IF) and tool-calling capabilities, making them more effective in enterprise applications.

Please Note: our micro model is an alternative option for users when mamba-2 support is not yet optimized.

Parameter Sizes
micro (3B)
micro-h (3B)
tiny-h (7B)
small-h (32B):

"h" mudelite Context window on 1M

Supported Languages
English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch, and Chinese. Users may finetune Granite 4.0 models for languages beyond these languages.
Intended Use

This model is designed to handle general instruction-following tasks and can be integrated into AI assistants across various domains, including business applications.

Capabilities
> Summarization
> Text classification
> Text extraction
> Question-answering
> Retrieval Augmented Generation
> Code related tasks
> Function-calling tasks
> Multilingual dialog use cases
> Fill-In-the-Middle (FIM) code completions

Optimist · HV veteran liitunud: 18.11.2008

RassK · HV Guru liitunud: 17.01.2007

gpt-oss:20b

igati rahul hetkel, too mul põhimudel.
Jõuluvana või näärivana võiks natukene rauda veel tuua, et 120b ka GPU peal kasutatavaks teha.

Optimist · HV veteran liitunud: 18.11.2008

degrass · HV kasutaja liitunud: 23.12.2004

RassK · HV Guru liitunud: 17.01.2007

Just, palju hetkel puudu pole, 2x24GB on praegu serveril VRAM. Plaan oli 1-2 GPU'd juurde panna aga raskem oli sobilik korpus leida. Nüüd neid samasid AI'sid piinates leidsin lõpuks ühe, mis nelja massiivset kaarti kannatab.

degrass · HV kasutaja liitunud: 23.12.2004

Optimist · HV veteran liitunud: 18.11.2008

RassK · HV Guru liitunud: 17.01.2007

Optimist · HV veteran liitunud: 18.11.2008

Dirty Harry · HV Guru liitunud: 05.09.2002

Kas OpenClaw'd on ka keegi proovinud? https://openclaw.ai/

Vahel olen mõtelnud, et võtaks kusagilt mõne Apple Siliconiga Mac Mini ja prooviks ka LLMi lokaalselt järgi. Muidugi kogu see turvapool (prompt injection) ajab ihukarvad püsti, aga kui äkki isoleeritult proovida...

degrass · HV kasutaja liitunud: 23.12.2004

Dirty Harry · HV Guru liitunud: 05.09.2002

Seda jah. Lihtsalt, et pole neid masinaid ja GPUsid vedelemas, apple siliconi puhul saaks mitu asja korraga.

degrass · HV kasutaja liitunud: 23.12.2004

Etz · HV Guru liitunud: 27.01.2005

https://github.com/microsoft/BitNet

Milleks GPU'd?

Optimist · HV veteran liitunud: 18.11.2008

Lihtsamad mudelid nagu llama3.2 saab üldse GPU peal ära jooksutada. Phi-4 lippab ka suht enamvähem CPU peal. Edasi on juba GPU maailm. Alla 16GB VRAMiga GPUd pole mõtet LLMide jooksutamiseks osta.

degrass · HV kasutaja liitunud: 23.12.2004

Dirty Harry · HV Guru liitunud: 05.09.2002

RassK · HV Guru liitunud: 17.01.2007

Ise väga happy küll nende väikeste mudelite üle pole, enamus tööd teevad ära 20B/32B mudelid, mille jaoks ikka vaja rauda. Korra mängimiseks tore küll 6-8GB aga fun saab kiirelt otsa.

Lisaks ei ole seal turva poolelt ka midagi hullu, nagu iga teine äpp kohalikus võrgus. Eestis jääb lisaks enamus lollusi NAT taha kui pordid on üldse avatud. Kui 0.0.0.0 bindiga midagi avalikku võrku satub, siis on terve kohalik võrk juba õhku lastud.

degrass · HV kasutaja liitunud: 23.12.2004

1dumbpcuser · HV Guru liitunud: 05.03.2002

Kas puhtalt VRAMi mõttes on mitu videokaarti ühes masinas mõttetu kuna kogu vram küll suureneb, aga omavahel käib suhtlus ikka üle PCI-E siini ehk sama hästi võiks kasutada rami?

RassK · HV Guru liitunud: 17.01.2007

GPUde omavaheline suhtlus on suht olematu võrreldes mudeli laadimisega. Mudeli laadimine käib ainult korra (kui just kohe peale interactioni maha ei laadi seda).

degrass · HV kasutaja liitunud: 23.12.2004

Mingi nädalake on Nemotron-3-super:120b ollamast allalaetav:
https://ollama.com/library/nemotron-3-super

Põgusa kasutamise järe tundub täitsa asjalik. Halb on see, et ennustab minul CPU pealt ning kompab sellega minu igivana kirjutusmasin võimete piire

Arvestades siiski ennustamise kiirust, võiks see uuemal masinal täitsa kasutatav olla, eeldusel, et on piisavalt mälu.
CLI' kasutades näitab ka mõtlemisprotsessi, ollamas aga kahjuks mitte.

Spoiler

Optimist · HV veteran liitunud: 18.11.2008

degrass · HV kasutaja liitunud: 23.12.2004

Dirty Harry · HV Guru liitunud: 05.09.2002

Kuna HV pani selle põhilise AI plärateema peitu ära ja kinni, siis oligi hea põhjus lokaalset LLMi uurida. Ollama + gemma'sid (2 ja 4, ) peamiselt proovisin mäki peal (M2 Pro, 16GB RAM). Mingi mulje on olemas.

1. Kui tahaks eesti keeles suhelda, anda eestikeelseid dokumente ette töötlemiseks ja mudimiseks, mis mudel selleks hea oleks? Võivad olla ka suuremad mudelid ja aeganõudvamad, tahaks just aru saada, mis üldse sobib.
2. Sama küsimus piltide kohapealt, kui anda oma pilt ette ja paluda seda LLMil töödelda, muuta, selle põhjal midagi muud luua - jälle, mis oleks hea?

Tahaks just mudelisoovitusi, et saaks siis edasi minna.

degrass · HV kasutaja liitunud: 23.12.2004

Dirty Harry, väikesed mudelid suudavad täita ühte kindlat, väga piiratud ülesannet, millele nad vastavad etteantud reeglite järgi. Suhtlemiseks on nad täiesti kasutud.
Sa pead välja mõtlema kindla ülesande, mida LLM tegema peab. Siis annad talle ette Prompti. Ma lasin Opusel testimse eesmärgil mõned koostada.
Enamasti nad suudava eestikeelsetest küsimustest aru saada, kuid vastata lase ainult inglise keeles.

All on vastuse formaat kuidas nad peavad vastama. Prompt ise on ca 250 rida pikk

RassK · HV Guru liitunud: 17.01.2007

degrass · HV kasutaja liitunud: 23.12.2004

Peale mõningast vaikust avaldati see nädal päris mitu uut mudelit:

mistral-medium-3.5 128B

Optimist · HV veteran liitunud: 18.11.2008

Mu viimase aja lemmik on Gemma4, minu üllatuseks kirjutab isegi koodi paremini kui qwen3-coder.
Granite 3 ja 4 versioonid olid kõige jubedamad LLMid millega üldse kokku puutusin

Kunagi ei tunnistanud vigu ja täiesti võimetud oma vigadest õppima, selle asemel hakkasid kasutajale valetama. Hoian heaga eemale.
Medium Mistral 3.5 on 80GB Q4 variandis ... SSD ruumist hakkab kahju