Hinnavaatlus
:: Foorum
:: Uudised
:: Ärifoorumid
:: HV F1 ennustusvõistlus
:: Pangalink
:: Telekavad
:: HV toote otsing
|
|
autor |
sõnum |
|
volpsu
HV kasutaja
liitunud: 13.09.2010
|
05.11.2014 16:54:50
Datamining |
|
|
Hello!
Googliga on juba tutvust tehtud aga äkki oskab ka siit midagi soovitada. Nimelt on plaanis “väike” projekt teha (datamining veebist). Esialgne plaan on võtta mobile.de’st kõik Audi mudelid ja kuvada palju neid on hetkel müügis (näiteks a4 on 15 000 kuulutust, a5 7 000). Ideeliselt võiks siis robot aeglaselt need “klikid” läbi teha ja salvestada koos kuupäevaga txt faili.
Oskab keegi midagi soovitada, ise plaanisin alustada tööd Pythoniga kuna tundub võimekus olevat või soovitate millegi muuga alustada.
Igasugused soovitused on teretulnud.
V.
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
Kommentaarid: 11 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
11 |
|
tagasi üles |
|
|
2ndalpha
HV kasutaja
liitunud: 03.11.2004
|
05.11.2014 16:57:39
|
|
|
Tõenäoliselt mobile.de blokib Su IP ära kui nii julmalt crawlid.
|
|
Kommentaarid: 23 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
22 |
|
tagasi üles |
|
|
volpsu
HV kasutaja
liitunud: 13.09.2010
|
05.11.2014 17:04:56
|
|
|
Ei plaani julmalt crawlida vaid iga klicki vahel võiks olla randomiga mingi aeg 1-10 seci. Kindlasti ma ei proovi seda nö jadana teha . Ka browseri infot peaks apache serverile saatma, et kõik tunduks inimlikuna....
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
Kommentaarid: 11 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
11 |
|
tagasi üles |
|
|
hans
Nii ränk on olla.
liitunud: 17.09.2004
|
|
Kommentaarid: 91 loe/lisa |
Kasutajad arvavad: |
|
:: |
3 :: |
0 :: |
69 |
|
tagasi üles |
|
|
2ndalpha
HV kasutaja
liitunud: 03.11.2004
|
05.11.2014 17:10:35
|
|
|
Teed lihtsalt hobiprojekti?
Info peab olema up-to-date? Ehk perioodiliselt tuleb uuesti crawlida?
Kui plaanid kogu mobile.de ära crawlida, siis kõige lihtsam on selleks wget-i kasutada.
|
|
Kommentaarid: 23 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
22 |
|
tagasi üles |
|
|
volpsu
HV kasutaja
liitunud: 13.09.2010
|
05.11.2014 17:17:57
|
|
|
Võib öelda küll, et teen enseharimiseprojekti
Olen mõelnud et script ei pea olema ses suhtes automaatne, et võin vabalt ise sobival hetkel käima lasta ja tekitab teksti faili kuupäeva rea ja arvu.
Kogu infot pole esialgu plaanis crawlida, esiteks oleks liiga mahukas ning teiseks ka oskused on puudulikud:)
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
Kommentaarid: 11 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
11 |
|
tagasi üles |
|
|
LKits
HV Guru
liitunud: 06.09.2007
|
|
Kommentaarid: 13 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
13 |
|
tagasi üles |
|
|
volpsu
HV kasutaja
liitunud: 13.09.2010
|
06.11.2014 11:00:41
|
|
|
Idee on oskuste arendes tõenäoliselt ka kuultustesse minna aga alustuseks prooviks lihtsamd päringud teostada
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
Kommentaarid: 11 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
11 |
|
tagasi üles |
|
|
LKits
HV Guru
liitunud: 06.09.2007
|
|
Kommentaarid: 13 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
13 |
|
tagasi üles |
|
|
tonis
HV vaatleja
liitunud: 04.06.2004
|
07.11.2014 13:11:46
|
|
|
Kui on lihtsalt huvi asja vastu siis võid netist leida olemasolevaid data sete, mis mõeldud uuringutes või harjutamiseks.
Google otsing: "data mining data sets free", jääb ära crawleri kirjutamine jne, saad kohe hakata proovima.
|
|
tagasi üles |
|
|
Redikate
HV veteran
liitunud: 30.12.2005
|
07.11.2014 18:25:36
|
|
|
Soovitan minu signatuuris olevat linki vajutada.
Mitte väga ammu aega tagasi kirjutasin ühele siinsele foorumlasele sarnaselt töötava koodijupi nodeJS'is (pea 20 rida oli teine), mis korjas ühelt lehelt lingid kokku ja siis käis iga lingi pealt pilti salvestamas.
_________________ http://nodejs.org/
"I'm also a person. Programming is just one thing I do." |
|
Kommentaarid: 34 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
33 |
|
tagasi üles |
|
|
andresv
HV kasutaja
liitunud: 06.12.2004
|
|
Kommentaarid: 5 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
5 |
|
tagasi üles |
|
|
mikk36
HV Guru
liitunud: 21.02.2004
|
10.11.2014 11:18:47
|
|
|
andresv, neid arve ei tasu tõepõhjana võtta.
|
|
Kommentaarid: 85 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
2 :: |
78 |
|
tagasi üles |
|
|
aims
HV kasutaja
liitunud: 02.08.2002
|
10.02.2017 11:36:44
Re: Datamining |
|
|
volpsu, kas said mingi töötava asja valmis ka lõpuks?
|
|
Kommentaarid: 31 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
30 |
|
tagasi üles |
|
|
volpsu
HV kasutaja
liitunud: 13.09.2010
|
11.02.2017 21:01:51
|
|
|
Mobile.de'st ei käinud jõud üle kuid kindlasti võiks asja uuesti käsile võtta
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
Kommentaarid: 11 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
11 |
|
tagasi üles |
|
|
Renka
HV Guru
liitunud: 01.04.2002
|
11.02.2017 21:58:31
|
|
|
Selline veebilehtede skännimine on paras perverssus ja enamasti on lahendus niivõrd kehvasti tehtud, et koormab serverit liigselt. Vasta kukalt tõmbaks sellistele skriptikirjutajatele
Aga üldiselt tasub andmeid pärida läbi API - juhul kui see olemas on.
Mobile.de'l näiteks on: https://services.mobile.de/manual/index.html
_________________ There is no place like 127.0.0.1 |
|
Kommentaarid: 71 loe/lisa |
Kasutajad arvavad: |
|
:: |
2 :: |
1 :: |
61 |
|
tagasi üles |
|
|
volpsu
HV kasutaja
liitunud: 13.09.2010
|
11.02.2017 22:00:35
|
|
|
Ideeliselt nõus aga samas on tore õppida. Oleneb ka muidugi mis mahus ja mida soovid...
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
Kommentaarid: 11 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
11 |
|
tagasi üles |
|
|
LKits
HV Guru
liitunud: 06.09.2007
|
|
Kommentaarid: 13 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
13 |
|
tagasi üles |
|
|
Renka
HV Guru
liitunud: 01.04.2002
|
11.02.2017 22:57:00
|
|
|
LKits kirjutas: |
Iga endast lugupidav veebiarendaja suudab sellisele koormusele kontrollmehhanismid ehitada. Ja kui ei suuda, siis kannatagu, raibe - looduslik valik. |
Ühe IP pealt tuleva koormuse tapab juba tulemüür ära. Aga kui tõmmatakse miski botneti moodi võrk käima siis oleks huvi kuulda neist kontrollmehhanismidest.
_________________ There is no place like 127.0.0.1 |
|
Kommentaarid: 71 loe/lisa |
Kasutajad arvavad: |
|
:: |
2 :: |
1 :: |
61 |
|
tagasi üles |
|
|
LKits
HV Guru
liitunud: 06.09.2007
|
|
Kommentaarid: 13 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
13 |
|
tagasi üles |
|
|
Stemugram
HV kasutaja
liitunud: 02.12.2001
|
12.02.2017 16:10:09
|
|
|
Renka kirjutas: |
Selline veebilehtede skännimine on paras perverssus ja enamasti on lahendus niivõrd kehvasti tehtud, et koormab serverit liigselt. Vasta kukalt tõmbaks sellistele skriptikirjutajatele |
On endalgi vahest olnud tarvidus mõnda lehte skännida ja andmeid koguda.
Lihtsalt huvi pärast küsin
Oskad öelda kuidas seda siis vähe valutumalt teha ja mitte serverit liigselt koormata (juhul kui lehel API pole)?
Olen ise kasutanud PHP'd ja file_get_contents ning sealt siis Regex'iga vajalikud andmed välja otsinud ning andmebaasi või teksti faili salvestanud. Tõenäoliselt see kõige parem lahendus pole aga vähemalt toimib.
|
|
Kommentaarid: 2 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
2 |
|
tagasi üles |
|
|
Renka
HV Guru
liitunud: 01.04.2002
|
12.02.2017 16:14:36
|
|
|
No kõige olulisem on piirata päringute sagedust. Umbes üks päring sekundis ei tohiks kellelegi probleemiks olla. See mis hiljem oma serveris teed ei koorma enam teist serverit.
_________________ There is no place like 127.0.0.1 |
|
Kommentaarid: 71 loe/lisa |
Kasutajad arvavad: |
|
:: |
2 :: |
1 :: |
61 |
|
tagasi üles |
|
|
volpsu
HV kasutaja
liitunud: 13.09.2010
|
12.02.2017 21:57:49
|
|
|
No minul on näiteks ühe näitel puhul pandud, et fake'b ühte browserit kahest ning time päringute vahel on randomiga 0-30 sec äkki?
API puhul tekib siiski see, et teatud infot ei taheta võibolla jagada?
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
Kommentaarid: 11 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
11 |
|
tagasi üles |
|
|
Renka
HV Guru
liitunud: 01.04.2002
|
12.02.2017 22:29:41
|
|
|
Miks see brauseri fakemine vajalik on?
Iga normaalne bot annab UA stringiga teada kes ta on. Kui ma avastan lehel miski boti mis väidab, end brauser olevat sisi see IP saab automaatselt banni.
_________________ There is no place like 127.0.0.1 |
|
Kommentaarid: 71 loe/lisa |
Kasutajad arvavad: |
|
:: |
2 :: |
1 :: |
61 |
|
tagasi üles |
|
|
LKits
HV Guru
liitunud: 06.09.2007
|
|
Kommentaarid: 13 loe/lisa |
Kasutajad arvavad: |
|
:: |
0 :: |
0 :: |
13 |
|
tagasi üles |
|
|
|