kako realizirati periodični "harvest"

Zdravo.

Za playtech.si moram narediti sledeče in vas prosim za predloge, kako zadevo najbolje izpeljati.

Vsaki igri lahko (ročno) vpišem http naslov njene strani na metacritic, če jo ima. Npr. za Alan Wake:
http://www.metacritic.com/games/platforms/xbox360/alanwake
Artikel shranim in nadaljujem z delom.
Vsake toliko pa se po Cronu požene update script, kjer z filegetcontents celo stran preberem v string, nato z preg_match najdem pravi div (ker ima tak id). Po validaciji se lahko podatek shrani v bazo.

Zdaj me zanima, kako naj zadevo naredim, da ne bo preveč tolkla s kladivom po metacritic.com... Trenutno imam nekaj več kot 500 iger, za vpisati jih imam še okoli 2000.

Cron in sleep v loopu = dovolj?

2 odgovora

Da bi jim zaznavno obremenil strežnik z enim cronjobom, se ne rabiš sekirat ... je pa seveda mogoče, da imajo implementirano kakšno vrsto zaščite proti takšnemu "harvestanju", npr. omejeno število zahtevkov z istega IPja v nekem časovnem oknu ipd.

Kakorkoli že, po mojih izkušnjah sicer strani nimajo ponavadi nobene zaščite proti "harvestanju", ker se preveč bojijo po nesreči blokirat GoogleBota in podobne živali, ki prav tako neusmiljeno sekajo po serverju, hehe. :)

1

Hehe.
No prav bom poizkušal to končati naslednji teden in mislim da bo stran veliko dobila na vrednosti, če mi vse rata tako kot sem si zamislil.