Avaleht
uus teema   vasta Tarkvara »  Programmeerimine »  Datamining märgi kõik teemad loetuks
märgi mitteloetuks
vaata eelmist teemat :: vaata järgmist teemat
mine lehele 1, 2  järgmine
Hinnavaatlus :: Foorum :: Uudised :: Ärifoorumid :: HV F1 ennustusvõistlus :: Pangalink :: Telekavad :: HV toote otsing
autor
sõnum Saada viide sõbrale. Teata moderaatorile
otsing:  
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 05.11.2014 16:54:50 Datamining vasta tsitaadiga

Hello!

Googliga on juba tutvust tehtud aga äkki oskab ka siit midagi soovitada. Nimelt on plaanis “väike” projekt teha (datamining veebist). Esialgne plaan on võtta mobile.de’st kõik Audi mudelid ja kuvada palju neid on hetkel müügis (näiteks a4 on 15 000 kuulutust, a5 7 000). Ideeliselt võiks siis robot aeglaselt need “klikid” läbi teha ja salvestada koos kuupäevaga txt faili.

Oskab keegi midagi soovitada, ise plaanisin alustada tööd Pythoniga kuna tundub võimekus olevat või soovitate millegi muuga alustada.

Igasugused soovitused on teretulnud.


V.

_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 11 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 11
tagasi üles
vaata kasutaja infot saada privaatsõnum
2ndalpha
HV kasutaja
2ndalpha

liitunud: 03.11.2004




sõnum 05.11.2014 16:57:39 vasta tsitaadiga

Tõenäoliselt mobile.de blokib Su IP ära kui nii julmalt crawlid.
Kommentaarid: 23 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 22
tagasi üles
vaata kasutaja infot saada privaatsõnum
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 05.11.2014 17:04:56 vasta tsitaadiga

Ei plaani julmalt crawlida vaid iga klicki vahel võiks olla randomiga mingi aeg 1-10 seci. Kindlasti ma ei proovi seda nö jadana teha icon_smile.gif. Ka browseri infot peaks apache serverile saatma, et kõik tunduks inimlikuna....
_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 11 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 11
tagasi üles
vaata kasutaja infot saada privaatsõnum
hans
Nii ränk on olla.

liitunud: 17.09.2004




sõnum 05.11.2014 17:10:15 vasta tsitaadiga

Asja eesmärk?

Mitu päeva võtab kõigi Audide ( ca 110tuh tükki ) läbi klikkimine ning mis infot Sa sealt saada tahad, teiseks..
kui korrektne see info peab olema ? Päringute kestvuse ajal jõuab see kuulutuste arv muutuda mitu korda..

Spoiler Spoiler Spoiler
Kommentaarid: 91 loe/lisa Kasutajad arvavad:  :: 3 :: 0 :: 69
tagasi üles
vaata kasutaja infot saada privaatsõnum
2ndalpha
HV kasutaja
2ndalpha

liitunud: 03.11.2004




sõnum 05.11.2014 17:10:35 vasta tsitaadiga

Teed lihtsalt hobiprojekti?
Info peab olema up-to-date? Ehk perioodiliselt tuleb uuesti crawlida?
Kui plaanid kogu mobile.de ära crawlida, siis kõige lihtsam on selleks wget-i kasutada.
Kommentaarid: 23 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 22
tagasi üles
vaata kasutaja infot saada privaatsõnum
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 05.11.2014 17:17:57 vasta tsitaadiga

Võib öelda küll, et teen enseharimiseprojekti icon_smile.gif

Olen mõelnud et script ei pea olema ses suhtes automaatne, et võin vabalt ise sobival hetkel käima lasta ja tekitab teksti faili kuupäeva rea ja arvu.
Kogu infot pole esialgu plaanis crawlida, esiteks oleks liiga mahukas ning teiseks ka oskused on puudulikud:)

_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 11 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 11
tagasi üles
vaata kasutaja infot saada privaatsõnum
LKits
HV Guru
LKits

liitunud: 06.09.2007




sõnum 06.11.2014 10:48:43 vasta tsitaadiga

Oot, oot - nii palju, kui mina aru sain, siis volpsu ei soovi kaevata individuaalseid kuulutusi, vaid lihtsalt Audi mudelite kuulutuste arvusid.

Seal leheküljel mingisugused lihtpäringud, mille kaudu saaks need arvud teada. Täpselt pole süvenenud, aga vaata leheküljel olevaid javascripte. Ilma JS see lehekülg ei tööta ehk eluks vajalik.

_________________
itLahendused - Arvutite remont ja hooldus, veebilehtede loomine, soodne veebimajutus. Võta ühendust! Tel: +372 555 268 97 ja e-post info@itlahendused.ee
Kommentaarid: 13 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 13
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 06.11.2014 11:00:41 vasta tsitaadiga

Idee on oskuste arendes tõenäoliselt ka kuultustesse minna aga alustuseks prooviks lihtsamd päringud teostada icon_smile.gif
_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 11 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 11
tagasi üles
vaata kasutaja infot saada privaatsõnum
LKits
HV Guru
LKits

liitunud: 06.09.2007




sõnum 06.11.2014 11:13:15 vasta tsitaadiga

Proovi leida mingisugune päring, mis muudab seda elementi
class="hitCounter"

Sest see on reaalajas muutuv number, kui muuta "Make" (makeModelVariant1.makeId) ja "Model" (makeModelVariant1.modelId) väljasid ning mingi päring kuhugi serverisse toimub. Täpsemalt hetkel ei oska öelda.

_________________
itLahendused - Arvutite remont ja hooldus, veebilehtede loomine, soodne veebimajutus. Võta ühendust! Tel: +372 555 268 97 ja e-post info@itlahendused.ee
Kommentaarid: 13 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 13
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
tonis
HV vaatleja

liitunud: 04.06.2004




sõnum 07.11.2014 13:11:46 vasta tsitaadiga

Kui on lihtsalt huvi asja vastu siis võid netist leida olemasolevaid data sete, mis mõeldud uuringutes või harjutamiseks.
Google otsing: "data mining data sets free", jääb ära crawleri kirjutamine jne, saad kohe hakata proovima.
tagasi üles
vaata kasutaja infot saada privaatsõnum
Redikate
HV veteran
Redikate

liitunud: 30.12.2005




sõnum 07.11.2014 18:25:36 vasta tsitaadiga

Soovitan minu signatuuris olevat linki vajutada.

Mitte väga ammu aega tagasi kirjutasin ühele siinsele foorumlasele sarnaselt töötava koodijupi nodeJS'is (pea 20 rida oli teine), mis korjas ühelt lehelt lingid kokku ja siis käis iga lingi pealt pilti salvestamas.

_________________
http://nodejs.org/
"I'm also a person. Programming is just one thing I do."
Kommentaarid: 34 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 33
tagasi üles
vaata kasutaja infot saada privaatsõnum
andresv
HV kasutaja

liitunud: 06.12.2004




sõnum 10.11.2014 09:16:57 vasta tsitaadiga

Google on sinu jaoks selle crawlimise ära teinud ja võiksid tema käest küsida palju mingeid autosid on mobile.d lehel
https://www.google.ee/webhp?sourceid=chrome-instant&ion=1&espv=2&es_th=1&ie=UTF-8#safe=active&q=audi+a4+%22technische+daten%22+site:mobile.de
(muuda otsingut selliselt, et tagastaks ainult detailvaate lehed)

või siis programselt:
https://developers.google.com/custom-search/json-api/v1/overview

Aga jah, andmekaeveks on päris palju andmestike juba parajal kujul olemas.
Võibolla sobib siit midagi:
https://archive.ics.uci.edu/ml/datasets.html
näiteks
https://archive.ics.uci.edu/ml/datasets/Automobile
Kommentaarid: 5 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 5
tagasi üles
vaata kasutaja infot saada privaatsõnum
mikk36
HV Guru
mikk36

liitunud: 21.02.2004




sõnum 10.11.2014 11:18:47 vasta tsitaadiga

andresv, neid arve ei tasu tõepõhjana võtta.
Kommentaarid: 85 loe/lisa Kasutajad arvavad:  :: 0 :: 2 :: 78
tagasi üles
vaata kasutaja infot saada privaatsõnum
aims
HV kasutaja

liitunud: 02.08.2002



Autoriseeritud ID-kaardiga

sõnum 10.02.2017 11:36:44 Re: Datamining vasta tsitaadiga

volpsu, kas said mingi töötava asja valmis ka lõpuks?
Kommentaarid: 31 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 30
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 11.02.2017 21:01:51 vasta tsitaadiga

Mobile.de'st ei käinud jõud üle kuid kindlasti võiks asja uuesti käsile võtta icon_smile.gif
_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 11 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 11
tagasi üles
vaata kasutaja infot saada privaatsõnum
Renka
HV Guru
Renka

liitunud: 01.04.2002



Autoriseeritud ID-kaardiga

sõnum 11.02.2017 21:58:31 vasta tsitaadiga

Selline veebilehtede skännimine on paras perverssus ja enamasti on lahendus niivõrd kehvasti tehtud, et koormab serverit liigselt. Vasta kukalt tõmbaks sellistele skriptikirjutajatele icon_mad.gif

Aga üldiselt tasub andmeid pärida läbi API - juhul kui see olemas on.

Mobile.de'l näiteks on: https://services.mobile.de/manual/index.html

_________________
There is no place like 127.0.0.1
Kommentaarid: 71 loe/lisa Kasutajad arvavad:  :: 2 :: 1 :: 61
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 11.02.2017 22:00:35 vasta tsitaadiga

Ideeliselt nõus aga samas on tore õppida. Oleneb ka muidugi mis mahus ja mida soovid...
_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 11 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 11
tagasi üles
vaata kasutaja infot saada privaatsõnum
LKits
HV Guru
LKits

liitunud: 06.09.2007




sõnum 11.02.2017 22:47:51 vasta tsitaadiga

Iga endast lugupidav veebiarendaja suudab sellisele koormusele kontrollmehhanismid ehitada. Ja kui ei suuda, siis kannatagu, raibe - looduslik valik.

Üldises pildis nõus - kui API olemas, siis kindlasti seda kasutada. Üldjuhul mingi teatud arv päringuid tasuta ka.
Renka kirjutas:
Selline veebilehtede skännimine on paras perverssus ja enamasti on lahendus niivõrd kehvasti tehtud, et koormab serverit liigselt. Vasta kukalt tõmbaks sellistele skriptikirjutajatele icon_mad.gif

Aga üldiselt tasub andmeid pärida läbi API - juhul kui see olemas on.

Mobile.de'l näiteks on: https://services.mobile.de/manual/index.html

_________________
itLahendused - Arvutite remont ja hooldus, veebilehtede loomine, soodne veebimajutus. Võta ühendust! Tel: +372 555 268 97 ja e-post info@itlahendused.ee
Kommentaarid: 13 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 13
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
Renka
HV Guru
Renka

liitunud: 01.04.2002



Autoriseeritud ID-kaardiga

sõnum 11.02.2017 22:57:00 vasta tsitaadiga

LKits kirjutas:
Iga endast lugupidav veebiarendaja suudab sellisele koormusele kontrollmehhanismid ehitada. Ja kui ei suuda, siis kannatagu, raibe - looduslik valik.
Ühe IP pealt tuleva koormuse tapab juba tulemüür ära. Aga kui tõmmatakse miski botneti moodi võrk käima siis oleks huvi kuulda neist kontrollmehhanismidest.
_________________
There is no place like 127.0.0.1
Kommentaarid: 71 loe/lisa Kasutajad arvavad:  :: 2 :: 1 :: 61
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
LKits
HV Guru
LKits

liitunud: 06.09.2007




sõnum 12.02.2017 03:28:30 vasta tsitaadiga

Ja sa tahad väita, et need scriptikirjutajad kasutavad botnette, mis on juhtumisi ka illegaalsed? Hmm... võib-olla tõesti.
Renka kirjutas:
LKits kirjutas:
Iga endast lugupidav veebiarendaja suudab sellisele koormusele kontrollmehhanismid ehitada. Ja kui ei suuda, siis kannatagu, raibe - looduslik valik.
Ühe IP pealt tuleva koormuse tapab juba tulemüür ära. Aga kui tõmmatakse miski botneti moodi võrk käima siis oleks huvi kuulda neist kontrollmehhanismidest.

_________________
itLahendused - Arvutite remont ja hooldus, veebilehtede loomine, soodne veebimajutus. Võta ühendust! Tel: +372 555 268 97 ja e-post info@itlahendused.ee
Kommentaarid: 13 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 13
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
Stemugram
HV kasutaja

liitunud: 02.12.2001



Autoriseeritud ID-kaardiga

sõnum 12.02.2017 16:10:09 vasta tsitaadiga

Renka kirjutas:
Selline veebilehtede skännimine on paras perverssus ja enamasti on lahendus niivõrd kehvasti tehtud, et koormab serverit liigselt. Vasta kukalt tõmbaks sellistele skriptikirjutajatele icon_mad.gif


On endalgi vahest olnud tarvidus mõnda lehte skännida ja andmeid koguda.

Lihtsalt huvi pärast küsin
Oskad öelda kuidas seda siis vähe valutumalt teha ja mitte serverit liigselt koormata (juhul kui lehel API pole)?

Olen ise kasutanud PHP'd ja file_get_contents ning sealt siis Regex'iga vajalikud andmed välja otsinud ning andmebaasi või teksti faili salvestanud. Tõenäoliselt see kõige parem lahendus pole aga vähemalt toimib.
Kommentaarid: 2 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 2
tagasi üles
vaata kasutaja infot saada privaatsõnum
Renka
HV Guru
Renka

liitunud: 01.04.2002



Autoriseeritud ID-kaardiga

sõnum 12.02.2017 16:14:36 vasta tsitaadiga

No kõige olulisem on piirata päringute sagedust. Umbes üks päring sekundis ei tohiks kellelegi probleemiks olla. See mis hiljem oma serveris teed ei koorma enam teist serverit.
_________________
There is no place like 127.0.0.1
Kommentaarid: 71 loe/lisa Kasutajad arvavad:  :: 2 :: 1 :: 61
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 12.02.2017 21:57:49 vasta tsitaadiga

No minul on näiteks ühe näitel puhul pandud, et fake'b ühte browserit kahest ning time päringute vahel on randomiga 0-30 sec äkki?

API puhul tekib siiski see, et teatud infot ei taheta võibolla jagada? icon_smile.gif

_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 11 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 11
tagasi üles
vaata kasutaja infot saada privaatsõnum
Renka
HV Guru
Renka

liitunud: 01.04.2002



Autoriseeritud ID-kaardiga

sõnum 12.02.2017 22:29:41 vasta tsitaadiga

Miks see brauseri fakemine vajalik on?

Iga normaalne bot annab UA stringiga teada kes ta on. Kui ma avastan lehel miski boti mis väidab, end brauser olevat sisi see IP saab automaatselt banni.

_________________
There is no place like 127.0.0.1
Kommentaarid: 71 loe/lisa Kasutajad arvavad:  :: 2 :: 1 :: 61
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
LKits
HV Guru
LKits

liitunud: 06.09.2007




sõnum 12.02.2017 22:32:29 vasta tsitaadiga

Renka, nõus, UA feikimine on jubedus. Sellegipoolest seda tehakse, just datamining eesmärkidel.
_________________
itLahendused - Arvutite remont ja hooldus, veebilehtede loomine, soodne veebimajutus. Võta ühendust! Tel: +372 555 268 97 ja e-post info@itlahendused.ee
Kommentaarid: 13 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 13
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
näita postitusi alates eelmisest:   
uus teema   vasta Tarkvara »  Programmeerimine »  Datamining mine lehele 1, 2  järgmine
[vaata eelmist teemat] [vaata järgmist teemat]
 lisa lemmikuks
näita foorumit:  
 ignoreeri teemat 
sa ei või postitada uusi teemasid siia foorumisse
sa ei või vastata selle foorumi teemadele
sa ei või muuta oma postitusi selles foorumis
sa ei või kustutada oma postitusi selles foorumis
sa ei või vastata küsitlustele selles foorumis
sa ei saa lisada manuseid selles foorumis
sa võid manuseid alla laadida selles foorumis



Hinnavaatlus ei vastuta foorumis tehtud postituste eest.