Avaleht
uus teema   vasta Tarkvara »  Tarkvara »  LLMid kohaliku raua peal märgi kõik teemad loetuks
märgi mitteloetuks
vaata eelmist teemat :: vaata järgmist teemat
mine lehele eelmine  1, 2
Hinnavaatlus :: Foorum :: Uudised :: Ärifoorumid :: HV F1 ennustusvõistlus :: Pangalink :: Telekavad :: HV toote otsing
autor
sõnum Saada viide sõbrale.  :: Teata moderaatorile teata moderaatorile
otsing:  
RassK
HV Guru
RassK

liitunud: 17.01.2007



Autoriseeritud ID-kaardiga Online

sõnum 09.10.2025 02:01:54 vasta tsitaadiga

Just, palju hetkel puudu pole, 2x24GB on praegu serveril VRAM. Plaan oli 1-2 GPU'd juurde panna aga raskem oli sobilik korpus leida. Nüüd neid samasid AI'sid piinates leidsin lõpuks ühe, mis nelja massiivset kaarti kannatab.
Kommentaarid: 116 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 101
tagasi üles
vaata kasutaja infot saada privaatsõnum
degrass
HV kasutaja
degrass

liitunud: 23.12.2004




sõnum 09.10.2025 16:46:08 vasta tsitaadiga

Optimist kirjutas:
RassK kirjutas:
Jõuluvana või näärivana võiks natukene rauda veel tuua, et 120b ka GPU peal kasutatavaks teha.


Kuna gpt-oss mudelid on MOE, ehk korraga aktiivseid parameetreid on vähe, jookseb see suure mudeli kohta päris hästi ka RAMis.


Ma vaatan, et see 120B toimetab isegi minu igivanal kirjutusmasinal. Muidugi, context length suurendamise ning suurema andmekogu ettesöötmisel kukkus ennustuskiirus. Peab natuke testima, kui adekvaatne see on. Igatahes ennustab see kiiremini kui LLama3.3:70B

_________________
All it took was for a lot of seemingly decent people to put the wrong person in power, and then pay for their innocent choice.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga

sõnum 09.10.2025 23:59:20 vasta tsitaadiga

degrass kirjutas:
Võimalik, et ta mõtleb siin paari lisa GPU'd, sest miks ühega piirduda, kui neid saab kaks, kolm, neli jne lisada?


Consumer GPUdega on see häda, et näiteks 4090 ja 7900XTX GDDR6 kiirus on ca 1TB/s. Kui nüüd tahad joosa suurt LLMi, mis ühte GPUsse ära ei mahu, siis GPU'de omavaheline suhtlus käib üle PCIe4 x16 siini mille ribalaius on masendavad 64 GB/s. Nii kui LLM dropib GPUst märkimisväärselt välja, kukub perf kolinal kuni ca 15x. Samas mitut väiksemat mudelit korraga jooksutada, mis GPU VRAMi ära mahub on väga tore. Saab näiteks ülesanded pooleks jagada, ühel on roll X ja teisel Y. See täitsa töötab.

Ma ise täna avastasin et igast dockeri konteinerite manageerimine hakkab vaikselt keeruliseks minema. Näiteks mis selle pool aastat tagasi tehtud konteineri rakenduse port oligi ? On kõik selle konteineri komponendid ikka turva aukudeta ? On kõikidest asjadest ikka backup olemas ? Kas mõni konteiner võtab 100% CPUd taustal ? Jne jne. Progesin täna endale Claude Sonnet 4.5 abiga gpt-oss:20b mudelit kasutava väikse dockeri keskkonna abilise. Esialgu saab asju ainult vaadata (logid, ketta/CPU/võrgu kasutus jne) aga plaanis on ta panna backuppide eest vastutama ja edasi juba kogu keskkonna adminniks promotida. Vaatab, et kõik oleks up-do-date, secure and aitab püsti, kui midagi käpuli lendab.


Eesti keelest saab ka aru aga kõik käitumisalased juhendid on antud inglise keeles praegu, seega vastab inglise keeles (kui just eraldi ei palu vastust eesti keeles). Teoorias lihtne muuta, kui tahta.

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
RassK
HV Guru
RassK

liitunud: 17.01.2007



Autoriseeritud ID-kaardiga Online

sõnum 10.10.2025 00:33:06 vasta tsitaadiga

Optimist kirjutas:

Consumer GPUdega on see häda, et näiteks 4090 ja 7900XTX GDDR6 kiirus on ca 1TB/s. Kui nüüd tahad joosa suurt LLMi, mis ühte GPUsse ära ei mahu, siis GPU'de omavaheline suhtlus käib üle PCIe4 x16 siini mille ribalaius on masendavad 64 GB/s. Nii kui LLM dropib GPUst märkimisväärselt välja, kukub perf kolinal kuni ca 15x. Samas mitut väiksemat mudelit korraga jooksutada, mis GPU VRAMi ära mahub on väga tore. Saab näiteks ülesanded pooleks jagada, ühel on roll X ja teisel Y. See täitsa töötab.


Saab siis proovida, palju see bottleneck märku annab. Nagunii mega massiivseid kodus jooksutada ei õnnestu.
PCIe 4.0 praktiline on veel madalam 28-30 GB/s. Väidetavalt on ceiling seetõttu 7.1k tok/s, seega nagu ruumi peaks olema.

Minu rig jooksutab gpt-oss:120b 5.5 tok/s. Väidetavalt 3x 3090 teeb seda kuskil 100 tok/s. Ja võrdluseks jälle minu oma gpt-oss:20b, ehk siis väiksem ca 167 tok/s.

Optimist kirjutas:

Ma ise täna avastasin et igast dockeri konteinerite manageerimine hakkab vaikselt keeruliseks minema. Näiteks mis selle pool aastat tagasi tehtud konteineri rakenduse port oligi ? On kõik selle konteineri komponendid ikka turva aukudeta ? On kõikidest asjadest ikka backup olemas ? Kas mõni konteiner võtab 100% CPUd taustal ? Jne jne. Progesin täna endale Claude Sonnet 4.5 abiga gpt-oss:20b mudelit kasutava väikse dockeri keskkonna abilise. Esialgu saab asju ainult vaadata (logid, ketta/CPU/võrgu kasutus jne) aga plaanis on ta panna backuppide eest vastutama ja edasi juba kogu keskkonna adminniks promotida. Vaatab, et kõik oleks up-do-date, secure and aitab püsti, kui midagi käpuli lendab.


Porte ma ka meelde ei jäta, pigem annad internal domeeni ja lased selle läbi proxy.
Mis puutub turvaaukudesse, siis ega seal suurt endal midagi teha pole, peale selle, et jooksutad latest versiooni. Seega nt watchtower teeb selle ära.
Kui sa tahad, et mingi märk jääb, siis võib ka nii teha, et dockeri conf on Git repos (Github, Gitlab). Dependabot käib üle ja kontrollib docker compose failid üle ja teeb PRi kui conf vana. PR merge peale saad juba auto deploy teha. Mõnikord on breaking changed sees, seega ma poleks 100% kindel, et LLM sellega hakkama saab. Arvestades lisaks viimaseid supply chain attack'e, siis latest auto merge on ka väga riskantne tegu.
Kommentaarid: 116 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 101
tagasi üles
vaata kasutaja infot saada privaatsõnum
Optimist
HV veteran
Optimist

liitunud: 18.11.2008



Autoriseeritud ID-kaardiga

sõnum 10.10.2025 10:50:20 vasta tsitaadiga

RassK kirjutas:
Porte ma ka meelde ei jäta, pigem annad internal domeeni ja lased selle läbi proxy.
Mis puutub turvaaukudesse, siis ega seal suurt endal midagi teha pole, peale selle, et jooksutad latest versiooni. Seega nt watchtower teeb selle ära.
Kui sa tahad, et mingi märk jääb, siis võib ka nii teha, et dockeri conf on Git repos (Github, Gitlab). Dependabot käib üle ja kontrollib docker compose failid üle ja teeb PRi kui conf vana. PR merge peale saad juba auto deploy teha. Mõnikord on breaking changed sees, seega ma poleks 100% kindel, et LLM sellega hakkama saab. Arvestades lisaks viimaseid supply chain attack'e, siis latest auto merge on ka väga riskantne tegu.

Mul need 30+ nime ka meeles ei püsiks, dashboardi pealt neid OK lahti vajadusel klikata. Watchtower on olemas aga pigem laseks LLMil Watchtoweri tegemistel silma peal hoida, kui mõni update ei lähe plaanipäraselt või läheb sinna sisse nüüd midagi, mis ei peaks seal olema.
Üldiselt suht happy kui hästi siiani gpt-oss:20b saab hakkama kõikide nende tool callidega dockeri keskkonnast ülevaate saamiseks. Kõik käsud käivad üle API, direct shell access QNAPi käsureale pole siin hea mõte.

_________________
LLM gang be like: Bro do you even MCP
Kommentaarid: 10 loe/lisa Kasutajad arvavad:  :: 0 :: 1 :: 8
tagasi üles
vaata kasutaja infot saada privaatsõnum
näita postitusi alates eelmisest:   
uus teema   vasta Tarkvara »  Tarkvara »  LLMid kohaliku raua peal mine lehele eelmine  1, 2
[vaata eelmist teemat] [vaata järgmist teemat]
 lisa lemmikuks
näita foorumit:  
 ignoreeri teemat 
sa ei või postitada uusi teemasid siia foorumisse
sa ei või vastata selle foorumi teemadele
sa ei või muuta oma postitusi selles foorumis
sa ei või kustutada oma postitusi selles foorumis
sa ei või vastata küsitlustele selles foorumis
sa ei saa lisada manuseid selles foorumis
sa võid manuseid alla laadida selles foorumis



Hinnavaatlus ei vastuta foorumis tehtud postituste eest.