Avaleht
uus teema   vasta Tarkvara »  Programmeerimine »  Datamining märgi kõik teemad loetuks
märgi mitteloetuks
vaata eelmist teemat :: vaata järgmist teemat
Hinnavaatlus :: Foorum :: Uudised :: Ärifoorumid :: HV F1 ennustusvõistlus :: Pangalink :: Telekavad :: HV toote otsing
autor
sõnum Saada viide sõbrale.  :: Teata moderaatorile teata moderaatorile
otsing:  
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 05.11.2014 16:54:50 Datamining vasta tsitaadiga

Hello!

Googliga on juba tutvust tehtud aga äkki oskab ka siit midagi soovitada. Nimelt on plaanis “väike” projekt teha (datamining veebist). Esialgne plaan on võtta mobile.de’st kõik Audi mudelid ja kuvada palju neid on hetkel müügis (näiteks a4 on 15 000 kuulutust, a5 7 000). Ideeliselt võiks siis robot aeglaselt need “klikid” läbi teha ja salvestada koos kuupäevaga txt faili.

Oskab keegi midagi soovitada, ise plaanisin alustada tööd Pythoniga kuna tundub võimekus olevat või soovitate millegi muuga alustada.

Igasugused soovitused on teretulnud.


V.

_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 12 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 12
tagasi üles
vaata kasutaja infot saada privaatsõnum
2ndalpha
HV kasutaja
2ndalpha

liitunud: 03.11.2004



Autoriseeritud ID-kaardiga
sõnum 05.11.2014 16:57:39 vasta tsitaadiga

Tõenäoliselt mobile.de blokib Su IP ära kui nii julmalt crawlid.
Kommentaarid: 23 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 22
tagasi üles
vaata kasutaja infot saada privaatsõnum
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 05.11.2014 17:04:56 vasta tsitaadiga

Ei plaani julmalt crawlida vaid iga klicki vahel võiks olla randomiga mingi aeg 1-10 seci. Kindlasti ma ei proovi seda nö jadana teha icon_smile.gif. Ka browseri infot peaks apache serverile saatma, et kõik tunduks inimlikuna....
_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 12 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 12
tagasi üles
vaata kasutaja infot saada privaatsõnum
hans
Nii ränk on olla.

liitunud: 17.09.2004



Autoriseeritud ID-kaardiga
sõnum 05.11.2014 17:10:15 vasta tsitaadiga

Asja eesmärk?

Mitu päeva võtab kõigi Audide ( ca 110tuh tükki ) läbi klikkimine ning mis infot Sa sealt saada tahad, teiseks..
kui korrektne see info peab olema ? Päringute kestvuse ajal jõuab see kuulutuste arv muutuda mitu korda..

Spoiler Spoiler Spoiler
Kommentaarid: 104 loe/lisa Kasutajad arvavad:  :: 3 :: 0 :: 81
tagasi üles
vaata kasutaja infot saada privaatsõnum
2ndalpha
HV kasutaja
2ndalpha

liitunud: 03.11.2004



Autoriseeritud ID-kaardiga
sõnum 05.11.2014 17:10:35 vasta tsitaadiga

Teed lihtsalt hobiprojekti?
Info peab olema up-to-date? Ehk perioodiliselt tuleb uuesti crawlida?
Kui plaanid kogu mobile.de ära crawlida, siis kõige lihtsam on selleks wget-i kasutada.
Kommentaarid: 23 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 22
tagasi üles
vaata kasutaja infot saada privaatsõnum
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 05.11.2014 17:17:57 vasta tsitaadiga

Võib öelda küll, et teen enseharimiseprojekti icon_smile.gif

Olen mõelnud et script ei pea olema ses suhtes automaatne, et võin vabalt ise sobival hetkel käima lasta ja tekitab teksti faili kuupäeva rea ja arvu.
Kogu infot pole esialgu plaanis crawlida, esiteks oleks liiga mahukas ning teiseks ka oskused on puudulikud:)

_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 12 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 12
tagasi üles
vaata kasutaja infot saada privaatsõnum
LKits
HV Guru
LKits

liitunud: 06.09.2007



Autoriseeritud ID-kaardiga
sõnum 06.11.2014 10:48:43 vasta tsitaadiga

Oot, oot - nii palju, kui mina aru sain, siis volpsu ei soovi kaevata individuaalseid kuulutusi, vaid lihtsalt Audi mudelite kuulutuste arvusid.

Seal leheküljel mingisugused lihtpäringud, mille kaudu saaks need arvud teada. Täpselt pole süvenenud, aga vaata leheküljel olevaid javascripte. Ilma JS see lehekülg ei tööta ehk eluks vajalik.

_________________
itLahendused - Arvutite remont ja hooldus, veebilehtede loomine, soodne veebimajutus. Võta ühendust! Tel: +372 555 268 97 ja e-post info@itlahendused.ee
Kommentaarid: 13 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 13
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 06.11.2014 11:00:41 vasta tsitaadiga

Idee on oskuste arendes tõenäoliselt ka kuultustesse minna aga alustuseks prooviks lihtsamd päringud teostada icon_smile.gif
_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 12 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 12
tagasi üles
vaata kasutaja infot saada privaatsõnum
LKits
HV Guru
LKits

liitunud: 06.09.2007



Autoriseeritud ID-kaardiga
sõnum 06.11.2014 11:13:15 vasta tsitaadiga

Proovi leida mingisugune päring, mis muudab seda elementi
class="hitCounter"

Sest see on reaalajas muutuv number, kui muuta "Make" (makeModelVariant1.makeId) ja "Model" (makeModelVariant1.modelId) väljasid ning mingi päring kuhugi serverisse toimub. Täpsemalt hetkel ei oska öelda.

_________________
itLahendused - Arvutite remont ja hooldus, veebilehtede loomine, soodne veebimajutus. Võta ühendust! Tel: +372 555 268 97 ja e-post info@itlahendused.ee
Kommentaarid: 13 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 13
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
tonis
HV vaatleja

liitunud: 04.06.2004




sõnum 07.11.2014 13:11:46 vasta tsitaadiga

Kui on lihtsalt huvi asja vastu siis võid netist leida olemasolevaid data sete, mis mõeldud uuringutes või harjutamiseks.
Google otsing: "data mining data sets free", jääb ära crawleri kirjutamine jne, saad kohe hakata proovima.
Kommentaarid: 1 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 1
tagasi üles
vaata kasutaja infot saada privaatsõnum
Redikate
HV veteran
Redikate

liitunud: 30.12.2005




sõnum 07.11.2014 18:25:36 vasta tsitaadiga

Soovitan minu signatuuris olevat linki vajutada.

Mitte väga ammu aega tagasi kirjutasin ühele siinsele foorumlasele sarnaselt töötava koodijupi nodeJS'is (pea 20 rida oli teine), mis korjas ühelt lehelt lingid kokku ja siis käis iga lingi pealt pilti salvestamas.

_________________
http://nodejs.org/
"I'm also a person. Programming is just one thing I do."
Kommentaarid: 34 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 33
tagasi üles
vaata kasutaja infot saada privaatsõnum
andresv
HV kasutaja

liitunud: 06.12.2004



Autoriseeritud ID-kaardiga
sõnum 10.11.2014 09:16:57 vasta tsitaadiga

Google on sinu jaoks selle crawlimise ära teinud ja võiksid tema käest küsida palju mingeid autosid on mobile.d lehel
https://www.google.ee/webhp?sourceid=chrome-instant&ion=1&espv=2&es_th=1&ie=UTF-8#safe=active&q=audi+a4+%22technische+daten%22+site:mobile.de
(muuda otsingut selliselt, et tagastaks ainult detailvaate lehed)

või siis programselt:
https://developers.google.com/custom-search/json-api/v1/overview

Aga jah, andmekaeveks on päris palju andmestike juba parajal kujul olemas.
Võibolla sobib siit midagi:
https://archive.ics.uci.edu/ml/datasets.html
näiteks
https://archive.ics.uci.edu/ml/datasets/Automobile
Kommentaarid: 5 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 5
tagasi üles
vaata kasutaja infot saada privaatsõnum
mikk36
HV Guru
mikk36

liitunud: 21.02.2004




sõnum 10.11.2014 11:18:47 vasta tsitaadiga

andresv, neid arve ei tasu tõepõhjana võtta.
Kommentaarid: 85 loe/lisa Kasutajad arvavad:  :: 0 :: 2 :: 78
tagasi üles
vaata kasutaja infot saada privaatsõnum
aims
HV kasutaja

liitunud: 02.08.2002



Autoriseeritud ID-kaardiga
sõnum 10.02.2017 11:36:44 Re: Datamining vasta tsitaadiga

volpsu, kas said mingi töötava asja valmis ka lõpuks?
Kommentaarid: 32 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 31
tagasi üles
vaata kasutaja infot saada privaatsõnum
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 11.02.2017 21:01:51 vasta tsitaadiga

Mobile.de'st ei käinud jõud üle kuid kindlasti võiks asja uuesti käsile võtta icon_smile.gif
_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 12 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 12
tagasi üles
vaata kasutaja infot saada privaatsõnum
Renka
HV Guru
Renka

liitunud: 01.04.2002



Autoriseeritud ID-kaardiga
sõnum 11.02.2017 21:58:31 vasta tsitaadiga

Selline veebilehtede skännimine on paras perverssus ja enamasti on lahendus niivõrd kehvasti tehtud, et koormab serverit liigselt. Vasta kukalt tõmbaks sellistele skriptikirjutajatele icon_mad.gif

Aga üldiselt tasub andmeid pärida läbi API - juhul kui see olemas on.

Mobile.de'l näiteks on: https://services.mobile.de/manual/index.html

_________________
There is no place like 127.0.0.1
Kommentaarid: 71 loe/lisa Kasutajad arvavad:  :: 2 :: 1 :: 61
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 11.02.2017 22:00:35 vasta tsitaadiga

Ideeliselt nõus aga samas on tore õppida. Oleneb ka muidugi mis mahus ja mida soovid...
_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 12 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 12
tagasi üles
vaata kasutaja infot saada privaatsõnum
LKits
HV Guru
LKits

liitunud: 06.09.2007



Autoriseeritud ID-kaardiga
sõnum 11.02.2017 22:47:51 vasta tsitaadiga

Iga endast lugupidav veebiarendaja suudab sellisele koormusele kontrollmehhanismid ehitada. Ja kui ei suuda, siis kannatagu, raibe - looduslik valik.

Üldises pildis nõus - kui API olemas, siis kindlasti seda kasutada. Üldjuhul mingi teatud arv päringuid tasuta ka.
Renka kirjutas:
Selline veebilehtede skännimine on paras perverssus ja enamasti on lahendus niivõrd kehvasti tehtud, et koormab serverit liigselt. Vasta kukalt tõmbaks sellistele skriptikirjutajatele icon_mad.gif

Aga üldiselt tasub andmeid pärida läbi API - juhul kui see olemas on.

Mobile.de'l näiteks on: https://services.mobile.de/manual/index.html

_________________
itLahendused - Arvutite remont ja hooldus, veebilehtede loomine, soodne veebimajutus. Võta ühendust! Tel: +372 555 268 97 ja e-post info@itlahendused.ee
Kommentaarid: 13 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 13
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
Renka
HV Guru
Renka

liitunud: 01.04.2002



Autoriseeritud ID-kaardiga
sõnum 11.02.2017 22:57:00 vasta tsitaadiga

LKits kirjutas:
Iga endast lugupidav veebiarendaja suudab sellisele koormusele kontrollmehhanismid ehitada. Ja kui ei suuda, siis kannatagu, raibe - looduslik valik.
Ühe IP pealt tuleva koormuse tapab juba tulemüür ära. Aga kui tõmmatakse miski botneti moodi võrk käima siis oleks huvi kuulda neist kontrollmehhanismidest.
_________________
There is no place like 127.0.0.1
Kommentaarid: 71 loe/lisa Kasutajad arvavad:  :: 2 :: 1 :: 61
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
LKits
HV Guru
LKits

liitunud: 06.09.2007



Autoriseeritud ID-kaardiga
sõnum 12.02.2017 03:28:30 vasta tsitaadiga

Ja sa tahad väita, et need scriptikirjutajad kasutavad botnette, mis on juhtumisi ka illegaalsed? Hmm... võib-olla tõesti.
Renka kirjutas:
LKits kirjutas:
Iga endast lugupidav veebiarendaja suudab sellisele koormusele kontrollmehhanismid ehitada. Ja kui ei suuda, siis kannatagu, raibe - looduslik valik.
Ühe IP pealt tuleva koormuse tapab juba tulemüür ära. Aga kui tõmmatakse miski botneti moodi võrk käima siis oleks huvi kuulda neist kontrollmehhanismidest.

_________________
itLahendused - Arvutite remont ja hooldus, veebilehtede loomine, soodne veebimajutus. Võta ühendust! Tel: +372 555 268 97 ja e-post info@itlahendused.ee
Kommentaarid: 13 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 13
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
Stemugram
HV kasutaja

liitunud: 02.12.2001



Autoriseeritud ID-kaardiga
sõnum 12.02.2017 16:10:09 vasta tsitaadiga

Renka kirjutas:
Selline veebilehtede skännimine on paras perverssus ja enamasti on lahendus niivõrd kehvasti tehtud, et koormab serverit liigselt. Vasta kukalt tõmbaks sellistele skriptikirjutajatele icon_mad.gif


On endalgi vahest olnud tarvidus mõnda lehte skännida ja andmeid koguda.

Lihtsalt huvi pärast küsin
Oskad öelda kuidas seda siis vähe valutumalt teha ja mitte serverit liigselt koormata (juhul kui lehel API pole)?

Olen ise kasutanud PHP'd ja file_get_contents ning sealt siis Regex'iga vajalikud andmed välja otsinud ning andmebaasi või teksti faili salvestanud. Tõenäoliselt see kõige parem lahendus pole aga vähemalt toimib.
Kommentaarid: 2 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 2
tagasi üles
vaata kasutaja infot saada privaatsõnum
Renka
HV Guru
Renka

liitunud: 01.04.2002



Autoriseeritud ID-kaardiga
sõnum 12.02.2017 16:14:36 vasta tsitaadiga

No kõige olulisem on piirata päringute sagedust. Umbes üks päring sekundis ei tohiks kellelegi probleemiks olla. See mis hiljem oma serveris teed ei koorma enam teist serverit.
_________________
There is no place like 127.0.0.1
Kommentaarid: 71 loe/lisa Kasutajad arvavad:  :: 2 :: 1 :: 61
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
volpsu
HV kasutaja

liitunud: 13.09.2010




sõnum 12.02.2017 21:57:49 vasta tsitaadiga

No minul on näiteks ühe näitel puhul pandud, et fake'b ühte browserit kahest ning time päringute vahel on randomiga 0-30 sec äkki?

API puhul tekib siiski see, et teatud infot ei taheta võibolla jagada? icon_smile.gif

_________________
Ega pidu ei parane, kui viin ei vähene!
Kommentaarid: 12 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 12
tagasi üles
vaata kasutaja infot saada privaatsõnum
Renka
HV Guru
Renka

liitunud: 01.04.2002



Autoriseeritud ID-kaardiga
sõnum 12.02.2017 22:29:41 vasta tsitaadiga

Miks see brauseri fakemine vajalik on?

Iga normaalne bot annab UA stringiga teada kes ta on. Kui ma avastan lehel miski boti mis väidab, end brauser olevat sisi see IP saab automaatselt banni.

_________________
There is no place like 127.0.0.1
Kommentaarid: 71 loe/lisa Kasutajad arvavad:  :: 2 :: 1 :: 61
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
LKits
HV Guru
LKits

liitunud: 06.09.2007



Autoriseeritud ID-kaardiga
sõnum 12.02.2017 22:32:29 vasta tsitaadiga

Renka, nõus, UA feikimine on jubedus. Sellegipoolest seda tehakse, just datamining eesmärkidel.
_________________
itLahendused - Arvutite remont ja hooldus, veebilehtede loomine, soodne veebimajutus. Võta ühendust! Tel: +372 555 268 97 ja e-post info@itlahendused.ee
Kommentaarid: 13 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 13
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
Etz
HV Guru
Etz

liitunud: 27.01.2005



Autoriseeritud ID-kaardiga
sõnum 12.02.2017 22:42:53 vasta tsitaadiga

Renka, ja LKits, no teatud juhtudel on see täitsa vajalik, kõik sõltub lehevaldaja suvast, on lehti kust saad vasta hambaid kui su UA ei matchi ühtegi tuntud brauseriga.
Mitte, et ma nüüd otseselt data mininguga tegeleks...

_________________
...life is random...so am I...
So, there is a fan. Time to grab your sh*t, gentlemen!
Kommentaarid: 236 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 196
tagasi üles
vaata kasutaja infot saada privaatsõnum
Renka
HV Guru
Renka

liitunud: 01.04.2002



Autoriseeritud ID-kaardiga
sõnum 12.02.2017 22:43:28 vasta tsitaadiga

Etz kirjutas:
Renka, ja LKits, no teatud juhtudel on see täitsa vajalik, kõik sõltub lehevaldaja suvast, on lehti kust saad vasta hambaid kui su UA ei matchi ühtegi tuntud brauseriga.
Mitte, et ma nüüd otseselt data mininguga tegeleks...
Soh - mis lehed sellised veel on?
_________________
There is no place like 127.0.0.1
Kommentaarid: 71 loe/lisa Kasutajad arvavad:  :: 2 :: 1 :: 61
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
Etz
HV Guru
Etz

liitunud: 27.01.2005



Autoriseeritud ID-kaardiga
sõnum 12.02.2017 22:51:51 vasta tsitaadiga

Renka kirjutas:
Soh - mis lehed sellised veel on?


Sourceforge näiteks, proovi sealt midagi skriptiga tirida...saad redirect loopi.
Seega mina tudvustan end seal wget'ina, ehk siis faken UA'd ja teie loogika alusel sooritan sellega räige kuriteo. icon_lol.gif

Ma nimelt scrapen mõningate installikate versiooni numbreid ja teen nende alusel autoupdatet.
Teine tore koht on FossHub mis on vabavara seas populaarseks muutunud...

Renka kirjutas:
Iga normaalne bot annab UA stringiga teada kes ta on. Kui ma avastan lehel miski boti mis väidab, end brauser olevat sisi see IP saab automaatselt banni.


Pigem mind huvitab, mille järgi sa selle kindlaks teed, kui bot on normaalselt tehtud ja käitub viisakalt. icon_razz.gif

_________________
...life is random...so am I...
So, there is a fan. Time to grab your sh*t, gentlemen!
Kommentaarid: 236 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 196
tagasi üles
vaata kasutaja infot saada privaatsõnum
Renka
HV Guru
Renka

liitunud: 01.04.2002



Autoriseeritud ID-kaardiga
sõnum 12.02.2017 22:52:17 vasta tsitaadiga

https://sourceforge.net/p/forge/documentation/API/
_________________
There is no place like 127.0.0.1
Kommentaarid: 71 loe/lisa Kasutajad arvavad:  :: 2 :: 1 :: 61
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
Etz
HV Guru
Etz

liitunud: 27.01.2005



Autoriseeritud ID-kaardiga
sõnum 12.02.2017 22:54:05 vasta tsitaadiga

Renka kirjutas:
https://sourceforge.net/p/forge/documentation/API/


Kõikidel saitidel ei ole API't... icon_wink.gif

_________________
...life is random...so am I...
So, there is a fan. Time to grab your sh*t, gentlemen!
Kommentaarid: 236 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 196
tagasi üles
vaata kasutaja infot saada privaatsõnum
Renka
HV Guru
Renka

liitunud: 01.04.2002



Autoriseeritud ID-kaardiga
sõnum 12.02.2017 22:58:43 vasta tsitaadiga

Etz, ja kas neil kõikidel siis on ka UA stringi miski piirang peal? icon_rolleyes.gif

SFil on ilmselgelt põhjusega piirang peal. API on ju olemas mida kasutada - see koormab vähem nende infrat ja on mõeldud täpselt selleks mida sa teha tahad. Sellepärast on ka selline piirang peale pandud tõenäoliselt.

_________________
There is no place like 127.0.0.1
Kommentaarid: 71 loe/lisa Kasutajad arvavad:  :: 2 :: 1 :: 61
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
Etz
HV Guru
Etz

liitunud: 27.01.2005



Autoriseeritud ID-kaardiga
sõnum 12.02.2017 23:04:18 vasta tsitaadiga

Renka kirjutas:
SFil on ilmselgelt põhjusega piirang peal. API on ju olemas mida kasutada - see koormab vähem nende infrat ja on mõeldud täpselt selleks mida sa teha tahad. Sellepärast on ka selline piirang peale pandud tõenäoliselt.


No ma ei saa nüüd just öelda, et ma nende infrat eriliselt koormaks, tehes kord nädalas kümmekond (Alla kümne tegelikult) päringut. icon_rolleyes.gif
Aga mõistlik oleks ilmselt API peale ringi kolid jah, paraku FossHub'il näiteks API't pole.

Tegelt oli asja point selles, et kui asju korrekselt teha...
Siis ei tohiks ka saidi omanikul väga selle vastu miskit olla, et nende saiti aegajalt mõni bot külastab ja UA ei puhu siin vähimatki pilli.

_________________
...life is random...so am I...
So, there is a fan. Time to grab your sh*t, gentlemen!
Kommentaarid: 236 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 196
tagasi üles
vaata kasutaja infot saada privaatsõnum
napoleon
Unknown virus
napoleon

liitunud: 08.12.2008



Autoriseeritud ID-kaardiga
sõnum 14.02.2017 17:04:44 vasta tsitaadiga

Etz kirjutas:

Pigem mind huvitab, mille järgi sa selle kindlaks teed, kui bot on normaalselt tehtud ja käitub viisakalt. icon_razz.gif


Suurema osa bot-e tuvastad selle järgi, et bot ei lae alla lehel olevaid pilte, skripte, stylesheete jms. Aga kui üritad teha nii targa bot'i, mis need kõik alla laeb ja http referrer'i ka õige paned, et paistaks nagu browser, siis tänapäevastel lehtedel on täiesti tavaline nähtus ka ajax jms. asjad, kus (java)scriptiga midagi täiendavalt laetakse. Et see ka toimiks, selleks peab bot juba nii tark olema, et suudab lehe ära parsida ja skriptid ka käima lasta. Ehk mingi põlveotsas kirjutatud bot'i tuvastamine pole mingi raketiteadus ja kui vastavad meetmed tarvitusele võtta, siis pole ka targema bot'i tuvastamine midagi üle mõistuse keerulist. Iseasi muidugi kas nende bot-dega peab niiväga võitlema, mis vaid paar päringut teevad ja need päringud pole sellised, mis viitaks turvaaukude otsimisele vms.
Kommentaarid: 78 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 60
tagasi üles
vaata kasutaja infot saada privaatsõnum
LKits
HV Guru
LKits

liitunud: 06.09.2007



Autoriseeritud ID-kaardiga
sõnum 14.02.2017 22:11:59 vasta tsitaadiga

napoleon, lihtsalt teadmiseks, et siis lakkavad töötamast ka no script, no images lehitsejad,mis iseenesest on väga väike vähemus.

Ei näe mingit põhjust, miks peaks serverit veel eriti koormama selle kõigega, et pilte jms alla laadida. Aga no kui legit simulatsioon on nii oluline, siis igati teostatav.

_________________
itLahendused - Arvutite remont ja hooldus, veebilehtede loomine, soodne veebimajutus. Võta ühendust! Tel: +372 555 268 97 ja e-post info@itlahendused.ee
Kommentaarid: 13 loe/lisa Kasutajad arvavad:  :: 0 :: 0 :: 13
tagasi üles
vaata kasutaja infot saada privaatsõnum mine selle kasutaja kodulehele
näita postitusi alates eelmisest:   
uus teema   vasta Tarkvara »  Programmeerimine »  Datamining
[vaata eelmist teemat] [vaata järgmist teemat]
 lisa lemmikuks
näita foorumit:  
 ignoreeri teemat 
sa ei või postitada uusi teemasid siia foorumisse
sa ei või vastata selle foorumi teemadele
sa ei või muuta oma postitusi selles foorumis
sa ei või kustutada oma postitusi selles foorumis
sa ei või vastata küsitlustele selles foorumis
sa ei saa lisada manuseid selles foorumis
sa võid manuseid alla laadida selles foorumis



Hinnavaatlus ei vastuta foorumis tehtud postituste eest.