Avaleht
uus teema   vasta Tarkvara »  WWW »  Veebilehe alla laadimine märgi kõik teemad loetuks
märgi mitteloetuks
vaata eelmist teemat :: vaata järgmist teemat
Hinnavaatlus :: Foorum :: Uudised :: Ärifoorumid :: HV F1 ennustusvõistlus :: Pangalink :: Telekavad :: HV toote otsing
autor
sõnum Saada viide sõbrale.  :: Teata moderaatorile teata moderaatorile
otsing:  
Raulj
Kreisi kasutaja
Raulj

liitunud: 27.01.2002




sõnum 08.05.2013 17:13:10 Veebilehe alla laadimine vasta tsitaadiga

Hei! Oleks vaja Rahvusarhiivi lehelt alla laadida hunnik digitaliseeritud materjale. Näiteks http://www.ra.ee/dgs/browser.php?tid=68&iid=110702595876&img=era0495_013_0000057_00001_t.jpg&tbn=1&pgn=1&lst=2&hash=b5ac746683912fb06d964b843b6011d4. Mis tarkvaraga seda teha saaks? Olen proovinud WinHTTrack-ga kuid see ebaõnnestub, kuna leht soovib vahel isikustamist. Samuti ka Chrome ja Mozilla pluginatega. Oleksin lahenduse eest väga tänulik!
Kommentaarid: 14 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 14
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
Redikate
HV veteran
Redikate

liitunud: 30.12.2005




sõnum 09.05.2013 08:04:18 vasta tsitaadiga

nodeJs
Ütle mis asju täpselt vaja on. Vaatan üle kui lihtne või raske mingi lahendus teha oleks.

E: Kõiki 17000 pilti on vaja?

E: Lahendus põhimõtteliselt olemas. Kirjutasin paarkümmend rida nodeJS'i. Võta palun PM'i või skype teel ühendust ja leiame kasutuse neile ridadele. (Olen Eestist -10h)

Muidu infoks ka, et:
PIlte on 17021
Iga lehekülje "vaatamine" (dns resolve, domi tirimine, ning sealt linkide otsimine) võtab aega ~3s.
Seega ainult selleks, et kätte saada kõik lingid nendele piltidele, kulub aega 14h ning see aeg ei sisalda nende piltide reaalselt downloadimist.
Lambi pilt mis ma sealt alla tirisin, kaalus 988kb, seega kui kõik need pildid oleks nii suured, on nende kogusuurus 134gb mida tirib tavalise kodu 12Mpbs netiga ~31h.
Kommentaarid: 34 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 33
tagasi üles
vaata kasutaja infot saada privaatsõnum
gynterk
HV kasutaja

liitunud: 17.01.2004




sõnum 09.05.2013 09:01:37 vasta tsitaadiga

Vähe küll OT, aga seal lehe all on kirjas "Copyright © 2013 Rahvusarhiiv" seepärast soovitan kindlasti antud tegevuseks hankida vastav luba, muidu võib nii suure koguse materjali allalaadimine lõppeda kurvalt (juhin tähelepanu sellele, et külastused on kindlasti logitud).
Kommentaarid: 5 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 5
tagasi üles
vaata kasutaja infot saada privaatsõnum
limp
HV Guru
limp

liitunud: 11.08.2003




sõnum 09.05.2013 09:45:37 vasta tsitaadiga

gynterk kirjutas:
Vähe küll OT, aga seal lehe all on kirjas "Copyright © 2013 Rahvusarhiiv" seepärast soovitan kindlasti antud tegevuseks hankida vastav luba, muidu võib nii suure koguse materjali allalaadimine lõppeda kurvalt (juhin tähelepanu sellele, et külastused on kindlasti logitud).

juhin tähelepanu ka sellele, et lehe vaatamine = sisuliselt allalaadimisega.
Nende materjalide hilisem kasutamine kuskil mujal võib selle kopiraidiga vastuolusse sattuda.

_________________
Ärgake lapsed, maailm on hädaohus

Windows keskkond on nagu li*s - kõik teda ke*ivad aga keegi teda ei armasta!
Kommentaarid: 56 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 52
tagasi üles
vaata kasutaja infot saada privaatsõnum
Fukiku
Kreisi kasutaja
Fukiku

liitunud: 06.11.2003




sõnum 09.05.2013 13:36:50 vasta tsitaadiga

Samas aegajalt saadakse ikka kurjaks, kui süstemaatiliselt tõmbama hakatakse... Ei pruugi alati õiguslikku alust selleks ollagi, aga IP bänn võib ikka tulla.

Ja noh, Aaron Swartz'i case oli vist ka üldjoontes sama, et kui andmeid automatiseeritult alla tõmmata isegi kui on legaalne ligipääs olemas, siis said mõned väga kurjaks selle pärast..

_________________
Foxic is just a simple fox
Enne kui sa küsid oma küsimuse - küsi seda vannipardilt! Rangelt soovitatav enne programmeerimise alafoorumisse uue teema tegemist.
Kommentaarid: 2 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 2
tagasi üles
vaata kasutaja infot saada privaatsõnum
perenoel
Kreisi kasutaja
perenoel

liitunud: 04.05.2004




sõnum 09.05.2013 14:17:05 vasta tsitaadiga

Copyrighti sübol lehel ei tähista sisuliselt mitte midagi, see on rohkem kombeasi. Autoriõigused lehel ilmunud originaalmatrjalile tekivad ka ilma selleta. Aga digitaliseerimise osas on rahvusvaheline (Ameerika) praktika selline, et kahemõõtmeline tõmmis vabakasutuses olevast trüki- pildi- vmt materjalist on samuti vabakasutuses. Seda eeldusel, et ei ole tehtud mitte mingeid muid muudatusi (näiteks tehtud iluravi vanale fotole).

Seevastu materjalide massilise allalaadimise blokeerib enamik servereid nii ehk naa. Kui soovid seda teha, pead kasutama tervet posu erinevaid proksisid.

_________________
The biggest delusion is that there are causes other than your own state of consciousness. - Neville Goddard
tagasi üles
vaata kasutaja infot saada privaatsõnum
raitl
HV veteran


liitunud: 20.01.2002



Autoriseeritud ID-kaardiga

sõnum 09.05.2013 14:32:07 vasta tsitaadiga

perenoel kirjutas:
... Seevastu materjalide massilise allalaadimise blokeerib enamik servereid nii ehk naa. Kui soovid seda teha, pead kasutama tervet posu erinevaid proksisid.


Või jätma oma crawleriga mulje, et oled tavaline tubli netikasutaja kes brausib neid materjale.
Kommentaarid: 166 loe/lisa Kasutajad arvavad:  :: 1 :: 0 :: 147
tagasi üles
vaata kasutaja infot saada privaatsõnum
Fukiku
Kreisi kasutaja
Fukiku

liitunud: 06.11.2003




sõnum 09.05.2013 15:13:12 vasta tsitaadiga

raitl kirjutas:
perenoel kirjutas:
... Seevastu materjalide massilise allalaadimise blokeerib enamik servereid nii ehk naa. Kui soovid seda teha, pead kasutama tervet posu erinevaid proksisid.


Või jätma oma crawleriga mulje, et oled tavaline tubli netikasutaja kes brausib neid materjale.
Mis sisuliselt tähendab oma roboti päris tugevat piiramist kiiruse mõttes. Üks-kaks pilti minutis jne.. Aga jah, võimalik. icon_smile.gif
_________________
Foxic is just a simple fox
Enne kui sa küsid oma küsimuse - küsi seda vannipardilt! Rangelt soovitatav enne programmeerimise alafoorumisse uue teema tegemist.
Kommentaarid: 2 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 2
tagasi üles
vaata kasutaja infot saada privaatsõnum
Raulj
Kreisi kasutaja
Raulj

liitunud: 27.01.2002




sõnum 09.05.2013 22:53:29 vasta tsitaadiga

Hei! Tean neid arhiivi kohti sellepärast, et Rahvusarhiiv ise on mind suunanud antud materjalidele, kui nende juures on käidud sooviga saada koopiaid antud materjalidest. Seega copyrighti asja ei tasu selle case puhul karta. Olen pöördunud ka meilitsi nende poole, et saaks neilt neid andmeid kasvõi raha eest digitaalsena, kuid pole veel paari päeva jooksul vastust saanud.

Vaja oleks neid siis ikkagi ise alla laadida ja neid fonde on mitu, seega materjale ~25000 pildi jagu.
Kommentaarid: 14 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 14
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
mahfiaz
HV kasutaja

liitunud: 03.11.2005




sõnum 14.05.2013 22:35:27 vasta tsitaadiga

See esimese postituse link nõuab sisselogimist.

Kas curl ei aita?
Kommentaarid: 32 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 32
tagasi üles
vaata kasutaja infot saada privaatsõnum
Raulj
Kreisi kasutaja
Raulj

liitunud: 27.01.2002




sõnum 14.05.2013 23:06:08 vasta tsitaadiga

Tänu Redikate lahendusele saan enda materjalid kätte icon_smile.gif
Kommentaarid: 14 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 14
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
Cemtey
HV kasutaja
Cemtey

liitunud: 04.03.2008




sõnum 21.05.2013 01:34:52 vasta tsitaadiga

.. kustutatud ..

viimati muutis Cemtey 23.04.2014 01:41:45, muudetud 1 kord
Kommentaarid: 18 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 17
tagasi üles
vaata kasutaja infot saada privaatsõnum
napoleon
Unknown virus
napoleon

liitunud: 08.12.2008



Autoriseeritud ID-kaardiga

sõnum 21.05.2013 10:26:58 vasta tsitaadiga

Ei ole see päris nii. Kui lehele massiliselt roboteid kallale tuleb, siis on kulud serveritele ja ühendusele suuremad ja minu arvates ei olegi riigi asi spämmerite elu lihtsamaks muuta
Kommentaarid: 77 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 60
tagasi üles
vaata kasutaja infot saada privaatsõnum
Redikate
HV veteran
Redikate

liitunud: 30.12.2005




sõnum 21.05.2013 20:36:28 vasta tsitaadiga

napoleon kirjutas:
Ei ole see päris nii. Kui lehele massiliselt roboteid kallale tuleb, siis on kulud serveritele ja ühendusele suuremad ja minu arvates ei olegi riigi asi spämmerite elu lihtsamaks muuta

Lehele ei saadeta massiliselt roboteid kallale kui leht pakub võimalust andmeid kätte saada mõistlikul viisil (näiteks täiesti tavaline REST API). Kui andmete kättesaamine tehakse raskeks ning idiootseks, tuleb kasutada muid võimalusi.

Teema algataja sai oma pildid jms kätte?

_________________
http://nodejs.org/
"I'm also a person. Programming is just one thing I do."
Kommentaarid: 34 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 33
tagasi üles
vaata kasutaja infot saada privaatsõnum
näita postitusi alates eelmisest:   
uus teema   vasta Tarkvara »  WWW »  Veebilehe alla laadimine
[vaata eelmist teemat] [vaata järgmist teemat]
 lisa lemmikuks
näita foorumit:  
 ignoreeri teemat 
sa ei või postitada uusi teemasid siia foorumisse
sa ei või vastata selle foorumi teemadele
sa ei või muuta oma postitusi selles foorumis
sa ei või kustutada oma postitusi selles foorumis
sa ei või vastata küsitlustele selles foorumis
sa ei saa lisada manuseid selles foorumis
sa võid manuseid alla laadida selles foorumis



Hinnavaatlus ei vastuta foorumis tehtud postituste eest.