Parsanje Googla

Google omejuje število zadetkov, ki si jih lahko dejansko ogledaš na seznamu rezultatov. Najde na primer 500.000, nato pa z listanjem dejansko pregledaš le 5000. Zanima me kako, če se sploh da, bi lahko vseh 500k indexiranih zadetkov dobil prikazane v obliki seznama URLjev.

Isto delata bing in yahoo, še bolj agresivno. Nujno rabim cel seznam URLjev. Kdo ve kako to dobit? Mora bit način, gotovo.... Tnks

4 odgovori

Če se ne motim, lahko pogledaš samo prvih 1000 rezultatov (se pravi 100 strani x 10 rezultatov).

Če iščeš po keywordu, ti ne znam pomagat. Če maš pa kakšne druge načine iskanja (npr. site:.edu) lahko pa zraven iskalnega niza prilepiš različne keyworde. Js uporabljam zelo dolge sezname keywordov (par deset tisoč) in to potem izgleda tako, se tvorijo vse možne iskalne kombinacije (site:.edu keyword1, site:.edu keyword2). Takšen način iskanja se lahko greš v Scrapeboxu z obilico proxyev.

Seveda ti to ne garantira, da boš našel čisto vse strani, boš pa precej bolj uspešen kot zgolj s prvimi 1000 rezultati.

11

Se mi je zdelo, da bo treba s seznamom KWjev delat. Problem je, da bo 10k KWjev premalo, ker so možne skoraj vse besede + najbolj govorjeni jeziki (ne samo angleščina). Imam scrapebox, ne vem pa kako naj se lotim priprave KWjev, da bi bilo čim bolj enostavno.

1

Js mam en file, kjer je noter cca. 477k besed (približno 11MB). Splital sem ga na več manjših po 1MB. To predvsem zato, ker ima Scrapebox lahko v harvester listu max. 1000000 rezultatov, vse ostalo pa kar odreže. Če želiš, ti ga kam pouploadam, je pa verjetno to daleč od vseh angleških besed, kaj šele tujejezižnih.

31

Hvala:) Imaš PM.