Avaleht
uus teema   vasta Tarkvara »  Tarkvara »  LLMid kohaliku raua peal märgi kõik teemad loetuks
märgi mitteloetuks
vaata eelmist teemat :: vaata järgmist teemat
Hinnavaatlus :: Foorum :: Uudised :: Ärifoorumid :: HV F1 ennustusvõistlus :: Pangalink :: Telekavad :: HV toote otsing
autor
sõnum Saada viide sõbrale.  :: Teata moderaatorile teata moderaatorile
otsing:  
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga

sõnum 27.02.2025 23:57:12 LLMid kohaliku raua peal vasta tsitaadiga

Heia mõtlesin teen teema suurte keelemudelite jooksutamisest kohaliku raua peal.

Tundub et praegu on levinud kaks frameworki'i LLMide jooksutamiseks. Üks on LM Studio, mis on kinnise koodiga ja äri jaoks tasuline, kuid tuleb kohe karbist kena GUIga ja teine on ollama, mis on avatud koodiga ja ägeda WebAPIga millele pythoni moodul jms olemas, kuid vaikimisi ilma GUIta, on ainult käsurida. Õnneks on ollamale mitmeid GUIsid tehtud, minu enda lemmik on Open WebUI. Seal saab lasta kohalikel mudelitel dokumente analüüsida, pythoni koodi sandboxis jooksutada, kohalikke mudeleid veebi otsinguga netti lasta jne.

ollama Windowsi all käima saamine on väga lihtne. https://ollama.com/download tõmbad exe alla, paned käima. Kõik seadistus toimub automaatselt, toetatud GPUde puhul kasutab GPUd, kui mitte siis CPUd. Command line'ilt või powershellist saab alla tõmmata endale mudeli. Neid on nagu kirjusid koeri https://ollama.com/search Mida rohkem on mudelil parameetreid, seda targem ta on aga seda aeglasemalt jookseb. Mudeli valik sõltub raua võimekusest. kirjutades käsureale näiteks ollama pull phi4 tõmbab ollama alla 14.7 miljardise parameetriga Microsofti phi4 mudeli.
Käivitamiseks ollama run phi4 ja läheb lahti. Natuke võtab aega mudeli mällu lugemine ja chatbot on olemas. Kui tahad mudeli kiirust mõõta, siis "ollama run <mudeli nimi> --verbose"

Alla 30B parameetriga LLMid eesti keelega just ei hiilga, parimaid vastuseid saab inglise keeles suheldes. Stiilinäide gemma2:27B eesti keele oskuse kohta:

ollama run gemma2:27B --verbose
>>> mis tähendab käru keerama ?
"Käru keerama" on eesti keelne väljend, mis tavaliselt kasutatakse **lastevanemate poolt**. See tähendab **beebi
või väikelapsega jalutamist**, eriti pikemal ja aktiivsemal reisil.

Näiteks: "Täna olime kogu pere metsas ja käru keerasin üle kolme kilomeetri."


Lisaks sellele tavapärasele tähendusele, võib väljend olla ka **metafooriline**. Näiteks:

* "Ta on elu käru keeranud nii kaua, et nüüd on ta väsinud." (tähendab, et inimene on kogenud palju ja on nüüd
väsinud.)
* "Me peame oma plaane ümber hindama ja käru uues suunas keerata." (tähendab, et tuleb teha drastilisi muudatusi.)

Seega sõltub "käru keerama" täpne tähendus kontekstist.


total duration: 26.9107246s
load duration: 25.2972ms
prompt eval count: 19 token(s)
prompt eval duration: 1.049s
prompt eval rate: 18.11 tokens/s
eval count: 234 token(s)
eval duration: 25.834s
eval rate: 9.06 tokens/s

Tavaliselt küsitakse mida saab LLMidega teha. Sama hästi võiks küsida, mida saab inimmõistusega teha. LLM saab olla programmeerimise abiline, kellegi hääle kloonija, teadusartiklite seletaja ja veel miljon kasutust mida ilmselt näema lähiaastakümnetel ilmumas. Täna veel ei ole iga probleemi lahendamiseks sobivat LLMi mudelit aga kuna erinevaid LLMi mudeleid on praeguseks juba üle miljoni, siis on ainult aja küsimus millal iga asja hästi tegemiseks on oma optimaalne LLM.
Jah kohalikud mudelid on vähem võimekamad kui pilve põhised serveritel jooksvad GPT-4o (tuntud ka kui ChatGPT), Gemini 2.0 Pro, Cloude 3.7 Sonnet jpt aga neid saab tasuta omal raual jooksutada ja lihtsamate ülesannetega saavad nad peaaegu sama hästi hakkama.

Kui teema vastu huvi on, võin siin oma beebi skainettide jooksutamisest edasi heietada icon_biggrin.gif

_________________
LLM gang be like: Bro do you even RAG
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
erick
HV Guru
erick

liitunud: 24.01.2003




sõnum 28.02.2025 00:40:49 vasta tsitaadiga

Heieta aga! Loeks huviga!
Kommentaarid: 105 loe/lisa Kasutajad arvavad:  :: 1 :: 0 :: 95
tagasi üles
vaata kasutaja infot saada privaatsõnum
jaank
HV veteran

liitunud: 14.01.2007




sõnum 28.02.2025 01:13:13 vasta tsitaadiga

Mis rauaga see tulemus?
Kommentaarid: 62 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 56
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga

sõnum 28.02.2025 01:50:58 vasta tsitaadiga

jaank kirjutas:
Mis rauaga see tulemus?

Profiili raud, 64GB DDR4-3600 RX 7800XT. CPU on Ryzen5 5600X aga see siin täis koormust ei näe, loeb ainult SSD pealt mudeleid sisse ja "swapib" VRAMi ja süsteemi RAMi vahet, kui mudel GPU 16G sisse ära ei mahu.

_________________
LLM gang be like: Bro do you even RAG
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
RassK
HV Guru
RassK

liitunud: 17.01.2007



Autoriseeritud ID-kaardiga

sõnum 15.03.2025 05:00:31 vasta tsitaadiga

Mul smart home'i teenindab Qwen2.5 hetkel, üsna hea mudel, eriti kuna on liidestatav (kõik mudelid pole). Muus osas on sama setup Proxmoxil LXC peal: ollama + Open WebUI.

Teisest küljest see "tasuta" jooksutamine on ka nii "suhteline". Et top mudeleid jooksutada on head rauda vaja ja mitte vähe. Kui lihtsalt katsetada, siis vb mõistlikum võtta pilvest Nvidia H100 renti on-demand plaaniga (1-2$/h). Kui juba kodus "production'isse" läheb ja oma privaatse data peal jooksutada (või voice-to-text teha nt whisper ai abil), siis pigem ei usaldaks neid.
Kommentaarid: 116 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 101
tagasi üles
vaata kasutaja infot saada privaatsõnum
lamp
HV Guru
lamp

liitunud: 08.11.2001



Autoriseeritud ID-kaardiga

sõnum 15.03.2025 13:27:07 vasta tsitaadiga

Mingi variant on a la tesla k80, parim raha-to-vram-suhe (24gb ca 100eur).
Neid võib laksida serverisse nii palju kui slotte ja toidet jätkub ja siis vaadata, mis saab.

_________________
eriti julm
Kommentaarid: 186 loe/lisa Kasutajad arvavad:  :: 1 :: 1 :: 163
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
RassK
HV Guru
RassK

liitunud: 17.01.2007



Autoriseeritud ID-kaardiga

sõnum 15.03.2025 19:49:56 vasta tsitaadiga

Selle GPU on väidetavalt liiga nõrk arvutuste jaoks. Odavatest parim 3090 pigem.
Kommentaarid: 116 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 101
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga

sõnum 17.03.2025 01:24:11 vasta tsitaadiga

lamp kirjutas:
Mingi variant on a la tesla k80, parim raha-to-vram-suhe (24gb ca 100eur).
Neid võib laksida serverisse nii palju kui slotte ja toidet jätkub ja siis vaadata, mis saab.

K80 pole just parim lahendus. See pole unified 24GB GPU vaid kaks 12GB GPU'd koku pandud. >12GB mudelid peavad juba kahe GPU vahet jooksma. Mõlemad 384 bit GDDR5 taga mis annab ribalaiuseks 2x240.6 GB/s. Isegi inferencingu jaoks liiga väike ribalaius, GPU compute pole ka just kiita. Suur kivi, palju kuuma, vähe villa.
https://www.techpowerup.com/gpu-specs/tesla-k80.c2616

_________________
LLM gang be like: Bro do you even RAG
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
flake
HV veteran

liitunud: 01.05.2003




sõnum 18.03.2025 00:47:41 vasta tsitaadiga

Koperdasin ka lokaalse LLMi kraami otsa paar kuud tagasi. Praegu pidama jäänud Gemma mudelite peal. Gemma3 nüüd ka saadaval, minu 4070ga 12b parameetriga mudel jookseb kenasti. 27b läägab ja üle selle pole väga mõtet.
Kasutan ollama + open web UI kombot kui ka LM Studiot, aga ollama + open webUi kuidagi kodusem.

_________________
..||..
Kommentaarid: 63 loe/lisa Kasutajad arvavad:  :: 2 :: 0 :: 60
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga

sõnum 19.03.2025 00:41:03 vasta tsitaadiga

Midagi huvitavat ollamalt
https://github.com/ollama/ollama/releases
Add support for AMD Strix Halo GPUs thumbs_up.gif

Huvitav kas RDNA3.5 GPU on nüüd ainult ROCm suppordiga või osatakse midagi XDNA2 NPUga ka ära teha.

Edit: keda huvitav, siis siin on 2h23min ollama Youtube koolitus Ollama Course – Build AI Apps Locally

Link

RAGi osa tundub suht mõttetu võimlemisega, näiteks Open WebUI's on see juba sisse ehitatud (sama ChromaDB kõhu all vektorbaasina), muidugi üldiselt on väga kasulik teada kuidas RAG toimetab.

_________________
LLM gang be like: Bro do you even RAG
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
näita postitusi alates eelmisest:   
uus teema   vasta Tarkvara »  Tarkvara »  LLMid kohaliku raua peal
[vaata eelmist teemat] [vaata järgmist teemat]
 lisa lemmikuks
näita foorumit:  
 ignoreeri teemat 
sa ei või postitada uusi teemasid siia foorumisse
sa ei või vastata selle foorumi teemadele
sa ei või muuta oma postitusi selles foorumis
sa ei või kustutada oma postitusi selles foorumis
sa ei või vastata küsitlustele selles foorumis
sa ei saa lisada manuseid selles foorumis
sa võid manuseid alla laadida selles foorumis



Hinnavaatlus ei vastuta foorumis tehtud postituste eest.