|
Hinnavaatlus
:: Foorum
:: Uudised
:: Ärifoorumid
:: HV F1 ennustusvõistlus
:: Pangalink
:: Telekavad
:: HV toote otsing
|
|
| autor |
|
volpsu
HV kasutaja
liitunud: 13.09.2010
|
05.11.2014 16:54:50
Datamining |
|
|
Hello!
Googliga on juba tutvust tehtud aga äkki oskab ka siit midagi soovitada. Nimelt on plaanis “väike” projekt teha (datamining veebist). Esialgne plaan on võtta mobile.de’st kõik Audi mudelid ja kuvada palju neid on hetkel müügis (näiteks a4 on 15 000 kuulutust, a5 7 000). Ideeliselt võiks siis robot aeglaselt need “klikid” läbi teha ja salvestada koos kuupäevaga txt faili.
Oskab keegi midagi soovitada, ise plaanisin alustada tööd Pythoniga kuna tundub võimekus olevat või soovitate millegi muuga alustada.
Igasugused soovitused on teretulnud.
V.
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
| Kommentaarid: 12 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
12 |
|
| tagasi üles |
|
 |
2ndalpha
HV kasutaja

liitunud: 03.11.2004
|
05.11.2014 16:57:39
|
|
|
| Tõenäoliselt mobile.de blokib Su IP ära kui nii julmalt crawlid.
|
|
| Kommentaarid: 23 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
22 |
|
| tagasi üles |
|
 |
volpsu
HV kasutaja
liitunud: 13.09.2010
|
05.11.2014 17:04:56
|
|
|
Ei plaani julmalt crawlida vaid iga klicki vahel võiks olla randomiga mingi aeg 1-10 seci. Kindlasti ma ei proovi seda nö jadana teha . Ka browseri infot peaks apache serverile saatma, et kõik tunduks inimlikuna....
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
| Kommentaarid: 12 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
12 |
|
| tagasi üles |
|
 |
hans
Nii ränk on olla.
liitunud: 17.09.2004
|
|
| Kommentaarid: 104 loe/lisa |
Kasutajad arvavad: |
   |
:: |
3 :: |
0 :: |
81 |
|
| tagasi üles |
|
 |
2ndalpha
HV kasutaja

liitunud: 03.11.2004
|
05.11.2014 17:10:35
|
|
|
Teed lihtsalt hobiprojekti?
Info peab olema up-to-date? Ehk perioodiliselt tuleb uuesti crawlida?
Kui plaanid kogu mobile.de ära crawlida, siis kõige lihtsam on selleks wget-i kasutada.
|
|
| Kommentaarid: 23 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
22 |
|
| tagasi üles |
|
 |
volpsu
HV kasutaja
liitunud: 13.09.2010
|
05.11.2014 17:17:57
|
|
|
Võib öelda küll, et teen enseharimiseprojekti
Olen mõelnud et script ei pea olema ses suhtes automaatne, et võin vabalt ise sobival hetkel käima lasta ja tekitab teksti faili kuupäeva rea ja arvu.
Kogu infot pole esialgu plaanis crawlida, esiteks oleks liiga mahukas ning teiseks ka oskused on puudulikud:)
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
| Kommentaarid: 12 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
12 |
|
| tagasi üles |
|
 |
LKits
HV Guru

liitunud: 06.09.2007
|
|
| Kommentaarid: 13 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
13 |
|
| tagasi üles |
|
 |
volpsu
HV kasutaja
liitunud: 13.09.2010
|
06.11.2014 11:00:41
|
|
|
Idee on oskuste arendes tõenäoliselt ka kuultustesse minna aga alustuseks prooviks lihtsamd päringud teostada
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
| Kommentaarid: 12 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
12 |
|
| tagasi üles |
|
 |
LKits
HV Guru

liitunud: 06.09.2007
|
|
| Kommentaarid: 13 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
13 |
|
| tagasi üles |
|
 |
tonis
HV vaatleja
liitunud: 04.06.2004
|
07.11.2014 13:11:46
|
|
|
Kui on lihtsalt huvi asja vastu siis võid netist leida olemasolevaid data sete, mis mõeldud uuringutes või harjutamiseks.
Google otsing: "data mining data sets free", jääb ära crawleri kirjutamine jne, saad kohe hakata proovima.
|
|
| Kommentaarid: 1 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
1 |
|
| tagasi üles |
|
 |
Redikate
HV veteran

liitunud: 30.12.2005
|
07.11.2014 18:25:36
|
|
|
Soovitan minu signatuuris olevat linki vajutada.
Mitte väga ammu aega tagasi kirjutasin ühele siinsele foorumlasele sarnaselt töötava koodijupi nodeJS'is (pea 20 rida oli teine), mis korjas ühelt lehelt lingid kokku ja siis käis iga lingi pealt pilti salvestamas.
_________________ http://nodejs.org/
"I'm also a person. Programming is just one thing I do." |
|
| Kommentaarid: 34 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
33 |
|
| tagasi üles |
|
 |
andresv
HV kasutaja
liitunud: 06.12.2004
|
|
| Kommentaarid: 5 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
5 |
|
| tagasi üles |
|
 |
mikk36
HV Guru

liitunud: 21.02.2004
|
10.11.2014 11:18:47
|
|
|
| andresv, neid arve ei tasu tõepõhjana võtta.
|
|
| Kommentaarid: 85 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
2 :: |
78 |
|
| tagasi üles |
|
 |
aims
HV kasutaja
liitunud: 02.08.2002
|
10.02.2017 11:36:44
Re: Datamining |
|
|
| volpsu, kas said mingi töötava asja valmis ka lõpuks?
|
|
| Kommentaarid: 32 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
31 |
|
| tagasi üles |
|
 |
volpsu
HV kasutaja
liitunud: 13.09.2010
|
11.02.2017 21:01:51
|
|
|
Mobile.de'st ei käinud jõud üle kuid kindlasti võiks asja uuesti käsile võtta
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
| Kommentaarid: 12 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
12 |
|
| tagasi üles |
|
 |
Renka
HV Guru

liitunud: 01.04.2002
|
11.02.2017 21:58:31
|
|
|
Selline veebilehtede skännimine on paras perverssus ja enamasti on lahendus niivõrd kehvasti tehtud, et koormab serverit liigselt. Vasta kukalt tõmbaks sellistele skriptikirjutajatele
Aga üldiselt tasub andmeid pärida läbi API - juhul kui see olemas on.
Mobile.de'l näiteks on: https://services.mobile.de/manual/index.html
_________________ There is no place like 127.0.0.1 |
|
| Kommentaarid: 71 loe/lisa |
Kasutajad arvavad: |
   |
:: |
2 :: |
1 :: |
61 |
|
| tagasi üles |
|
 |
volpsu
HV kasutaja
liitunud: 13.09.2010
|
11.02.2017 22:00:35
|
|
|
Ideeliselt nõus aga samas on tore õppida. Oleneb ka muidugi mis mahus ja mida soovid...
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
| Kommentaarid: 12 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
12 |
|
| tagasi üles |
|
 |
LKits
HV Guru

liitunud: 06.09.2007
|
|
| Kommentaarid: 13 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
13 |
|
| tagasi üles |
|
 |
Renka
HV Guru

liitunud: 01.04.2002
|
11.02.2017 22:57:00
|
|
|
| LKits kirjutas: |
| Iga endast lugupidav veebiarendaja suudab sellisele koormusele kontrollmehhanismid ehitada. Ja kui ei suuda, siis kannatagu, raibe - looduslik valik. |
Ühe IP pealt tuleva koormuse tapab juba tulemüür ära. Aga kui tõmmatakse miski botneti moodi võrk käima siis oleks huvi kuulda neist kontrollmehhanismidest.
_________________ There is no place like 127.0.0.1 |
|
| Kommentaarid: 71 loe/lisa |
Kasutajad arvavad: |
   |
:: |
2 :: |
1 :: |
61 |
|
| tagasi üles |
|
 |
LKits
HV Guru

liitunud: 06.09.2007
|
|
| Kommentaarid: 13 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
13 |
|
| tagasi üles |
|
 |
Stemugram
HV kasutaja
liitunud: 02.12.2001
|
12.02.2017 16:10:09
|
|
|
| Renka kirjutas: |
Selline veebilehtede skännimine on paras perverssus ja enamasti on lahendus niivõrd kehvasti tehtud, et koormab serverit liigselt. Vasta kukalt tõmbaks sellistele skriptikirjutajatele |
On endalgi vahest olnud tarvidus mõnda lehte skännida ja andmeid koguda.
Lihtsalt huvi pärast küsin
Oskad öelda kuidas seda siis vähe valutumalt teha ja mitte serverit liigselt koormata (juhul kui lehel API pole)?
Olen ise kasutanud PHP'd ja file_get_contents ning sealt siis Regex'iga vajalikud andmed välja otsinud ning andmebaasi või teksti faili salvestanud. Tõenäoliselt see kõige parem lahendus pole aga vähemalt toimib.
|
|
| Kommentaarid: 2 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
2 |
|
| tagasi üles |
|
 |
Renka
HV Guru

liitunud: 01.04.2002
|
12.02.2017 16:14:36
|
|
|
No kõige olulisem on piirata päringute sagedust. Umbes üks päring sekundis ei tohiks kellelegi probleemiks olla. See mis hiljem oma serveris teed ei koorma enam teist serverit.
_________________ There is no place like 127.0.0.1 |
|
| Kommentaarid: 71 loe/lisa |
Kasutajad arvavad: |
   |
:: |
2 :: |
1 :: |
61 |
|
| tagasi üles |
|
 |
volpsu
HV kasutaja
liitunud: 13.09.2010
|
12.02.2017 21:57:49
|
|
|
No minul on näiteks ühe näitel puhul pandud, et fake'b ühte browserit kahest ning time päringute vahel on randomiga 0-30 sec äkki?
API puhul tekib siiski see, et teatud infot ei taheta võibolla jagada?
_________________ Ega pidu ei parane, kui viin ei vähene! |
|
| Kommentaarid: 12 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
12 |
|
| tagasi üles |
|
 |
Renka
HV Guru

liitunud: 01.04.2002
|
12.02.2017 22:29:41
|
|
|
Miks see brauseri fakemine vajalik on?
Iga normaalne bot annab UA stringiga teada kes ta on. Kui ma avastan lehel miski boti mis väidab, end brauser olevat sisi see IP saab automaatselt banni.
_________________ There is no place like 127.0.0.1 |
|
| Kommentaarid: 71 loe/lisa |
Kasutajad arvavad: |
   |
:: |
2 :: |
1 :: |
61 |
|
| tagasi üles |
|
 |
LKits
HV Guru

liitunud: 06.09.2007
|
|
| Kommentaarid: 13 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
13 |
|
| tagasi üles |
|
 |
Etz
HV Guru

liitunud: 27.01.2005
|
12.02.2017 22:42:53
|
|
|
Renka, ja LKits, no teatud juhtudel on see täitsa vajalik, kõik sõltub lehevaldaja suvast, on lehti kust saad vasta hambaid kui su UA ei matchi ühtegi tuntud brauseriga.
Mitte, et ma nüüd otseselt data mininguga tegeleks...
_________________ ...life is random...so am I...
So, there is a fan. Time to grab your sh*t, gentlemen! |
|
| Kommentaarid: 236 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
196 |
|
| tagasi üles |
|
 |
Renka
HV Guru

liitunud: 01.04.2002
|
12.02.2017 22:43:28
|
|
|
| Etz kirjutas: |
Renka, ja LKits, no teatud juhtudel on see täitsa vajalik, kõik sõltub lehevaldaja suvast, on lehti kust saad vasta hambaid kui su UA ei matchi ühtegi tuntud brauseriga.
Mitte, et ma nüüd otseselt data mininguga tegeleks... |
Soh - mis lehed sellised veel on?
_________________ There is no place like 127.0.0.1 |
|
| Kommentaarid: 71 loe/lisa |
Kasutajad arvavad: |
   |
:: |
2 :: |
1 :: |
61 |
|
| tagasi üles |
|
 |
Etz
HV Guru

liitunud: 27.01.2005
|
12.02.2017 22:51:51
|
|
|
| Renka kirjutas: |
| Soh - mis lehed sellised veel on? |
Sourceforge näiteks, proovi sealt midagi skriptiga tirida...saad redirect loopi.
Seega mina tudvustan end seal wget'ina, ehk siis faken UA'd ja teie loogika alusel sooritan sellega räige kuriteo.
Ma nimelt scrapen mõningate installikate versiooni numbreid ja teen nende alusel autoupdatet.
Teine tore koht on FossHub mis on vabavara seas populaarseks muutunud...
| Renka kirjutas: |
| Iga normaalne bot annab UA stringiga teada kes ta on. Kui ma avastan lehel miski boti mis väidab, end brauser olevat sisi see IP saab automaatselt banni. |
Pigem mind huvitab, mille järgi sa selle kindlaks teed, kui bot on normaalselt tehtud ja käitub viisakalt.
_________________ ...life is random...so am I...
So, there is a fan. Time to grab your sh*t, gentlemen! |
|
| Kommentaarid: 236 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
196 |
|
| tagasi üles |
|
 |
Renka
HV Guru

liitunud: 01.04.2002
|
|
| Kommentaarid: 71 loe/lisa |
Kasutajad arvavad: |
   |
:: |
2 :: |
1 :: |
61 |
|
| tagasi üles |
|
 |
Etz
HV Guru

liitunud: 27.01.2005
|
12.02.2017 22:54:05
|
|
|
Kõikidel saitidel ei ole API't...
_________________ ...life is random...so am I...
So, there is a fan. Time to grab your sh*t, gentlemen! |
|
| Kommentaarid: 236 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
196 |
|
| tagasi üles |
|
 |
Renka
HV Guru

liitunud: 01.04.2002
|
12.02.2017 22:58:43
|
|
|
Etz, ja kas neil kõikidel siis on ka UA stringi miski piirang peal?
SFil on ilmselgelt põhjusega piirang peal. API on ju olemas mida kasutada - see koormab vähem nende infrat ja on mõeldud täpselt selleks mida sa teha tahad. Sellepärast on ka selline piirang peale pandud tõenäoliselt.
_________________ There is no place like 127.0.0.1 |
|
| Kommentaarid: 71 loe/lisa |
Kasutajad arvavad: |
   |
:: |
2 :: |
1 :: |
61 |
|
| tagasi üles |
|
 |
Etz
HV Guru

liitunud: 27.01.2005
|
12.02.2017 23:04:18
|
|
|
| Renka kirjutas: |
| SFil on ilmselgelt põhjusega piirang peal. API on ju olemas mida kasutada - see koormab vähem nende infrat ja on mõeldud täpselt selleks mida sa teha tahad. Sellepärast on ka selline piirang peale pandud tõenäoliselt. |
No ma ei saa nüüd just öelda, et ma nende infrat eriliselt koormaks, tehes kord nädalas kümmekond (Alla kümne tegelikult) päringut.
Aga mõistlik oleks ilmselt API peale ringi kolid jah, paraku FossHub'il näiteks API't pole.
Tegelt oli asja point selles, et kui asju korrekselt teha...
Siis ei tohiks ka saidi omanikul väga selle vastu miskit olla, et nende saiti aegajalt mõni bot külastab ja UA ei puhu siin vähimatki pilli.
_________________ ...life is random...so am I...
So, there is a fan. Time to grab your sh*t, gentlemen! |
|
| Kommentaarid: 236 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
196 |
|
| tagasi üles |
|
 |
napoleon
Unknown virus

liitunud: 08.12.2008
|
14.02.2017 17:04:44
|
|
|
| Etz kirjutas: |
Pigem mind huvitab, mille järgi sa selle kindlaks teed, kui bot on normaalselt tehtud ja käitub viisakalt.  |
Suurema osa bot-e tuvastad selle järgi, et bot ei lae alla lehel olevaid pilte, skripte, stylesheete jms. Aga kui üritad teha nii targa bot'i, mis need kõik alla laeb ja http referrer'i ka õige paned, et paistaks nagu browser, siis tänapäevastel lehtedel on täiesti tavaline nähtus ka ajax jms. asjad, kus (java)scriptiga midagi täiendavalt laetakse. Et see ka toimiks, selleks peab bot juba nii tark olema, et suudab lehe ära parsida ja skriptid ka käima lasta. Ehk mingi põlveotsas kirjutatud bot'i tuvastamine pole mingi raketiteadus ja kui vastavad meetmed tarvitusele võtta, siis pole ka targema bot'i tuvastamine midagi üle mõistuse keerulist. Iseasi muidugi kas nende bot-dega peab niiväga võitlema, mis vaid paar päringut teevad ja need päringud pole sellised, mis viitaks turvaaukude otsimisele vms.
|
|
| Kommentaarid: 78 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
60 |
|
| tagasi üles |
|
 |
LKits
HV Guru

liitunud: 06.09.2007
|
|
| Kommentaarid: 13 loe/lisa |
Kasutajad arvavad: |
   |
:: |
0 :: |
0 :: |
13 |
|
| tagasi üles |
|
 |
|