Heia mõtlesin teen teema suurte keelemudelite jooksutamisest kohaliku raua peal.
Tundub et praegu on levinud kaks frameworki'i LLMide jooksutamiseks. Üks on LM Studio, mis on kinnise koodiga ja äri jaoks tasuline, kuid tuleb kohe karbist kena GUIga ja teine on ollama, mis on avatud koodiga ja ägeda WebAPIga millele pythoni moodul jms olemas, kuid vaikimisi ilma GUIta, on ainult käsurida. Õnneks on ollamale mitmeid GUIsid tehtud, minu enda lemmik on Open WebUI. Seal saab lasta kohalikel mudelitel dokumente analüüsida, pythoni koodi sandboxis jooksutada, kohalikke mudeleid veebi otsinguga netti lasta jne.
ollama Windowsi all käima saamine on väga lihtne. https://ollama.com/download tõmbad exe alla, paned käima. Kõik seadistus toimub automaatselt, toetatud GPUde puhul kasutab GPUd, kui mitte siis CPUd. Command line'ilt või powershellist saab alla tõmmata endale mudeli. Neid on nagu kirjusid koeri https://ollama.com/search Mida rohkem on mudelil parameetreid, seda targem ta on aga seda aeglasemalt jookseb. Mudeli valik sõltub raua võimekusest. kirjutades käsureale näiteks ollama pull phi4 tõmbab ollama alla 14.7 miljardise parameetriga Microsofti phi4 mudeli.
Käivitamiseks ollama run phi4 ja läheb lahti. Natuke võtab aega mudeli mällu lugemine ja chatbot on olemas. Kui tahad mudeli kiirust mõõta, siis "ollama run <mudeli nimi> --verbose"
Alla 30B parameetriga LLMid eesti keelega just ei hiilga, parimaid vastuseid saab inglise keeles suheldes. Stiilinäide gemma2:27B eesti keele oskuse kohta:
ollama run gemma2:27B --verbose
>>> mis tähendab käru keerama ?
"Käru keerama" on eesti keelne väljend, mis tavaliselt kasutatakse **lastevanemate poolt**. See tähendab **beebi
või väikelapsega jalutamist**, eriti pikemal ja aktiivsemal reisil.
Näiteks: "Täna olime kogu pere metsas ja käru keerasin üle kolme kilomeetri."
Lisaks sellele tavapärasele tähendusele, võib väljend olla ka **metafooriline**. Näiteks:
* "Ta on elu käru keeranud nii kaua, et nüüd on ta väsinud." (tähendab, et inimene on kogenud palju ja on nüüd
väsinud.)
* "Me peame oma plaane ümber hindama ja käru uues suunas keerata." (tähendab, et tuleb teha drastilisi muudatusi.)
Seega sõltub "käru keerama" täpne tähendus kontekstist.
Tavaliselt küsitakse mida saab LLMidega teha. Sama hästi võiks küsida, mida saab inimmõistusega teha. LLM saab olla programmeerimise abiline, kellegi hääle kloonija, teadusartiklite seletaja ja veel miljon kasutust mida ilmselt näema lähiaastakümnetel ilmumas. Täna veel ei ole iga probleemi lahendamiseks sobivat LLMi mudelit aga kuna erinevaid LLMi mudeleid on praeguseks juba üle miljoni, siis on ainult aja küsimus millal iga asja hästi tegemiseks on oma optimaalne LLM.
Jah kohalikud mudelid on vähem võimekamad kui pilve põhised serveritel jooksvad GPT-4o (tuntud ka kui ChatGPT), Gemini 2.0 Pro, Cloude 3.7 Sonnet jpt aga neid saab tasuta omal raual jooksutada ja lihtsamate ülesannetega saavad nad peaaegu sama hästi hakkama.
Kui teema vastu huvi on, võin siin oma beebi skainettide jooksutamisest edasi heietada _________________ LLM gang be like: Bro do you even RAG
Profiili raud, 64GB DDR4-3600 RX 7800XT. CPU on Ryzen5 5600X aga see siin täis koormust ei näe, loeb ainult SSD pealt mudeleid sisse ja "swapib" VRAMi ja süsteemi RAMi vahet, kui mudel GPU 16G sisse ära ei mahu. _________________ LLM gang be like: Bro do you even RAG
Mul smart home'i teenindab Qwen2.5 hetkel, üsna hea mudel, eriti kuna on liidestatav (kõik mudelid pole). Muus osas on sama setup Proxmoxil LXC peal: ollama + Open WebUI.
Teisest küljest see "tasuta" jooksutamine on ka nii "suhteline". Et top mudeleid jooksutada on head rauda vaja ja mitte vähe. Kui lihtsalt katsetada, siis vb mõistlikum võtta pilvest Nvidia H100 renti on-demand plaaniga (1-2$/h). Kui juba kodus "production'isse" läheb ja oma privaatse data peal jooksutada (või voice-to-text teha nt whisper ai abil), siis pigem ei usaldaks neid.
Mingi variant on a la tesla k80, parim raha-to-vram-suhe (24gb ca 100eur).
Neid võib laksida serverisse nii palju kui slotte ja toidet jätkub ja siis vaadata, mis saab. _________________ eriti julm
Mingi variant on a la tesla k80, parim raha-to-vram-suhe (24gb ca 100eur).
Neid võib laksida serverisse nii palju kui slotte ja toidet jätkub ja siis vaadata, mis saab.
K80 pole just parim lahendus. See pole unified 24GB GPU vaid kaks 12GB GPU'd koku pandud. >12GB mudelid peavad juba kahe GPU vahet jooksma. Mõlemad 384 bit GDDR5 taga mis annab ribalaiuseks 2x240.6 GB/s. Isegi inferencingu jaoks liiga väike ribalaius, GPU compute pole ka just kiita. Suur kivi, palju kuuma, vähe villa.
https://www.techpowerup.com/gpu-specs/tesla-k80.c2616 _________________ LLM gang be like: Bro do you even RAG
Koperdasin ka lokaalse LLMi kraami otsa paar kuud tagasi. Praegu pidama jäänud Gemma mudelite peal. Gemma3 nüüd ka saadaval, minu 4070ga 12b parameetriga mudel jookseb kenasti. 27b läägab ja üle selle pole väga mõtet.
Kasutan ollama + open web UI kombot kui ka LM Studiot, aga ollama + open webUi kuidagi kodusem. _________________ ..||..
RAGi osa tundub suht mõttetu võimlemisega, näiteks Open WebUI's on see juba sisse ehitatud (sama ChromaDB kõhu all vektorbaasina), muidugi üldiselt on väga kasulik teada kuidas RAG toimetab.
Edit:
Palju aega hiljem aga nüüd saab ka ChatGPT4ja kohaliku raua peal jooksutada:
ollama run gpt-oss:20b --verbose >>> what are you ? I’m ChatGPT, a large‑language model built by OpenAI based on the GPT‑4 architecture. eval rate: 81.83 tokens/s
Kaks mudelit praegu saadaval, üks optimeeritud 16G VRAM GPUde ja teine 80G VRAMiga GPUde jaoks https://ollama.com/library/gpt-oss _________________ LLM gang be like: Bro do you even RAG
Kas neid suuremaid mudeleid ilma samase RAM-ita ei anna käivitada et puhverdaks nt 2-3x M.2 peale seda mälu efektiivselt?
Ideepoolest RAM-i kiirus vb üle 50gb sec, 3x M.2 SSD vb 10gb+ sec kokku.
Windwowsi swap ilmselt ei vea välja mõistliku ajaga aga ehk linuxil hea configa, proxmox, vmware või spetsiaalne tarkvara mis suudaks? _________________ Müüa E5 socket 2011 V3 ja V4, 10,14,22 tuumalised CPU-d, SOODSALT .
Kas neid suuremaid mudeleid ilma samase RAM-ita ei anna käivitada et puhverdaks nt 2-3x M.2 peale seda mälu efektiivselt?
Ideepoolest RAM-i kiirus vb üle 50gb sec, 3x M.2 SSD vb 10gb+ sec kokku.
Windwowsi swap ilmselt ei vea välja mõistliku ajaga aga ehk linuxil hea configa, proxmox, vmware või spetsiaalne tarkvara mis suudaks?
Mida vähem on mudelil parameetreid, seda vähem nende vahel liiklust ja ribalaiuse vajadus mudeli kasutamise ajal väiksem. Teine aspekt on mille jaoks mudelit kasutada. Kui on reasoning type mudel, millel tahetakse palju iseendaga arutleda lasta, siis kiiruse vajadus on suurem. Samuti kui on vaja koodi kirjutamisel kiiret abi vaja ja pole aega kümneid sekundeid iga liigutuse jaoks oodata. Samas kui taustal lahendab mingeid ticketeid ja pole üldse vahet, kas see saab valmis 10 või 20 sekundiga, peaasi et ülesanne oleks korrektselt lahendatud.
Reaalselt on vaja ca 200-500GB/s mälu, et ca 15 miljardi (Q4_k_m) parameetriga mudelit normaalselt jooksutada, mis võtab ca 10GB VRAMi. Näiteks 8 mälukanaliga EPYC server või mõni 16GB VRAMiga GPU on soovitatav.
Ahjaa, siis on muidugi dataset mida mudelil närida lasta ja kui suureks konfida mudeli enda context memory ehk lühimälu. 10GB/s kiirustega midagi väga asjalikku kahjuks ei jookse, mingeid tillukesi mitte just kõige nutikamaid mõne miljardi parameetriga mudeleid näiteks. _________________ LLM gang be like: Bro do you even RAG
Tundub et praegu on levinud kaks frameworki'i LLMide jooksutamiseks. Üks on LM Studio, mis on kinnise koodiga ja äri jaoks tasuline, kuid tuleb kohe karbist kena GUIga ja teine on ollama, mis on avatud koodiga ja ägeda WebAPIga millele pythoni moodul jms olemas, kuid vaikimisi ilma GUIta, on ainult käsurida. Õnneks on ollamale mitmeid GUIsid tehtud, minu enda lemmik on Open WebUI. Seal saab lasta kohalikel mudelitel dokumente analüüsida, pythoni koodi sandboxis jooksutada, kohalikke mudeleid veebi otsinguga netti lasta jne.
Proovisin LM-S' mõnda aega, kuid ollama meeldib rohkem, eriti, kui kasutada koos WebUI ja knowledge funktsiooniga.
Optimist kirjutas:
Kui teema vastu huvi on, võin siin oma beebi skainettide jooksutamisest edasi heietada
minu beebi skainet vajab maailmavallutusplaanide teostamiseks uut rauda _________________ All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
Ollamaga tuleb ka nüüd minimalistlik GUI kaasa. Olen eelistanud Ollamat just mudelite kiiruse pärast. Kohati on vahe isegi kahekordne. gpt-oss tulekuga on aga LM Studio saanud valmis parema MXFP4 toe, kõik gpt-oss mudelid jooksevad mu 7900XTX peal 2x kiiremini just LM Stuudios. Kuna mulle meeldib ka Open WebUI oluliselt rohkem, siis paaritasin LM Studio API ära WebUI'ga ja saan nüüd mõlemat gpt-oss mudelit jooksutada oma lemmik GUI's 2x suurema kiirusega. Miinuseks, et üle selle API ei raporteeri LM Studio kiirust.
AI agentidest ka räägime ?
Edit: SSD kasutamine punkt kuus https://www.gigabyte.com/consumer/ai-top/ SSD Mounting: Allows users to automatically mount 1 to 2 NVMe SSDs, offloading training memory to SSDs for improved performance. _________________ LLM gang be like: Bro do you even RAG
Ollamaga tuleb ka nüüd minimalistlik GUI kaasa. Olen eelistanud Ollamat just mudelite kiiruse pärast. Kohati on vahe isegi kahekordne. gpt-oss tulekuga on aga LM Studio saanud valmis parema MXFP4 toe, kõik gpt-oss mudelid jooksevad mu 7900XTX peal 2x kiiremini just LM Stuudios. Kuna mulle meeldib ka Open WebUI oluliselt rohkem, siis paaritasin LM Studio API ära WebUI'ga ja saan nüüd mõlemat gpt-oss mudelit jooksutada oma lemmik GUI's 2x suurema kiirusega. Miinuseks, et üle selle API ei raporteeri LM Studio kiirust.
Kas see minimalistlik GUI töötab ka windows keskkonnas?
Optimist kirjutas:
AI agentidest ka räägime ?
Hetkel mitte
Optimist kirjutas:
Edit: SSD kasutamine punkt kuus https://www.gigabyte.com/consumer/ai-top/ SSD Mounting: Allows users to automatically mount 1 to 2 NVMe SSDs, offloading training memory to SSDs for improved performance.
VRAM'ist on puudus. Oleks vaja MB rohkemate PCIe x16 pesadega. Kaks on liiga vähe... _________________ All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
Ollamaga tuleb ka nüüd minimalistlik GUI kaasa. Olen eelistanud Ollamat just mudelite kiiruse pärast. Kohati on vahe isegi kahekordne. gpt-oss tulekuga on aga LM Studio saanud valmis parema MXFP4 toe, kõik gpt-oss mudelid jooksevad mu 7900XTX peal 2x kiiremini just LM Stuudios. Kuna mulle meeldib ka Open WebUI oluliselt rohkem, siis paaritasin LM Studio API ära WebUI'ga ja saan nüüd mõlemat gpt-oss mudelit jooksutada oma lemmik GUI's 2x suurema kiirusega. Miinuseks, et üle selle API ei raporteeri LM Studio kiirust.
Kas see minimalistlik GUI töötab ka windows keskkonnas?
Jep.
Igast vahvaid vidinaid saab ka käsurealt käima panna, mis ollamaga trikke teevad. Üks on näiteks utiliit, mis võimaldab mitmel ollama LLMil omavahel suhelda. Mudelite korda-mööda käivitamine võtab muidugi aega (kui kasutada erinevaid mudeleid, saab ka sama mudelit kasutada erineva prompti/juhisega). Soovitav on panna sinna teiste LLMide juurde ka moderaator LLM, kes kirjutab lõpuks kokkuvõtte, mis otsusele mingis küsimuses jõuti jne. llm-conversation https://github.com/famiu/llm_conversation
MCP serveri saab ollamale külge pookida käsurealt (ollmcp https://github.com/jonigl/mcp-client-for-ollama). MCP ehk Model Contect Protocol on umbes nagu wiki aga LLMidele. Saab üle MCP näiteks mingi rakenduse dokumentatsiooni LLMidele selgeks teha. Neid saab mitu LLMidele nähtavaks teha ja MCP serveri võib kasvõi pisikese dockeri peale kohalikku arvutisse jooksma panna. Ise just kasutasin MCP praegu serverit kohalikus arvutis aga pilve mudelile tarkuse jagamiseks. Natuke creepy kui LLM loeb sekundeid üle MCP dokumentatsiooni ja oskab asju hoobilt teha, mis inimestel võtaks tunde (ja mõni ei saaks elu lõpuni asjale pihta). _________________ LLM gang be like: Bro do you even RAG
Ollamaga tuleb ka nüüd minimalistlik GUI kaasa. Olen eelistanud Ollamat just mudelite kiiruse pärast. Kohati on vahe isegi kahekordne. gpt-oss tulekuga on aga LM Studio saanud valmis parema MXFP4 toe, kõik gpt-oss mudelid jooksevad mu 7900XTX peal 2x kiiremini just LM Stuudios. Kuna mulle meeldib ka Open WebUI oluliselt rohkem, siis paaritasin LM Studio API ära WebUI'ga ja saan nüüd mõlemat gpt-oss mudelit jooksutada oma lemmik GUI's 2x suurema kiirusega. Miinuseks, et üle selle API ei raporteeri LM Studio kiirust.
Kas see minimalistlik GUI töötab ka windows keskkonnas?
Jep.
Igast vahvaid vidinaid saab ka käsurealt käima panna, mis ollamaga trikke teevad. Üks on näiteks utiliit, mis võimaldab mitmel ollama LLMil omavahel suhelda. Mudelite korda-mööda käivitamine võtab muidugi aega (kui kasutada erinevaid mudeleid, saab ka sama mudelit kasutada erineva prompti/juhisega). Soovitav on panna sinna teiste LLMide juurde ka moderaator LLM, kes kirjutab lõpuks kokkuvõtte, mis otsusele mingis küsimuses jõuti jne. llm-conversation https://github.com/famiu/llm_conversation
MCP serveri saab ollamale külge pookida käsurealt (ollmcp https://github.com/jonigl/mcp-client-for-ollama). MCP ehk Model Contect Protocol on umbes nagu wiki aga LLMidele. Saab üle MCP näiteks mingi rakenduse dokumentatsiooni LLMidele selgeks teha. Neid saab mitu LLMidele nähtavaks teha ja MCP serveri võib kasvõi pisikese dockeri peale kohalikku arvutisse jooksma panna. Ise just kasutasin MCP praegu serverit kohalikus arvutis aga pilve mudelile tarkuse jagamiseks. Natuke creepy kui LLM loeb sekundeid üle MCP dokumentatsiooni ja oskab asju hoobilt teha, mis inimestel võtaks tunde (ja mõni ei saaks elu lõpuni asjale pihta).
Huvitav. See on IT dokumentatsioon või mingi tööstusseadme oma?
sa ei või postitada uusi teemasid siia foorumisse sa ei või vastata selle foorumi teemadele sa ei või muuta oma postitusi selles foorumis sa ei või kustutada oma postitusi selles foorumis sa ei või vastata küsitlustele selles foorumis sa ei saa lisada manuseid selles foorumis sa võid manuseid alla laadida selles foorumis
Hinnavaatlus ei vastuta foorumis tehtud postituste eest.