Parsanje Googla
2 naročnika
2 naročnika
Google omejuje število zadetkov, ki si jih lahko dejansko ogledaš na seznamu rezultatov. Najde na primer 500.000, nato pa z listanjem dejansko pregledaš le 5000. Zanima me kako, če se sploh da, bi lahko vseh 500k indexiranih zadetkov dobil prikazane v obliki seznama URLjev.
Isto delata bing in yahoo, še bolj agresivno. Nujno rabim cel seznam URLjev. Kdo ve kako to dobit? Mora bit način, gotovo.... Tnks
4 odgovori
Če se ne motim, lahko pogledaš samo prvih 1000 rezultatov (se pravi 100 strani x 10 rezultatov).
Če iščeš po keywordu, ti ne znam pomagat. Če maš pa kakšne druge načine iskanja (npr. site:.edu) lahko pa zraven iskalnega niza prilepiš različne keyworde. Js uporabljam zelo dolge sezname keywordov (par deset tisoč) in to potem izgleda tako, se tvorijo vse možne iskalne kombinacije (site:.edu keyword1, site:.edu keyword2). Takšen način iskanja se lahko greš v Scrapeboxu z obilico proxyev.
Seveda ti to ne garantira, da boš našel čisto vse strani, boš pa precej bolj uspešen kot zgolj s prvimi 1000 rezultati.
Se mi je zdelo, da bo treba s seznamom KWjev delat. Problem je, da bo 10k KWjev premalo, ker so možne skoraj vse besede + najbolj govorjeni jeziki (ne samo angleščina). Imam scrapebox, ne vem pa kako naj se lotim priprave KWjev, da bi bilo čim bolj enostavno.
Js mam en file, kjer je noter cca. 477k besed (približno 11MB). Splital sem ga na več manjših po 1MB. To predvsem zato, ker ima Scrapebox lahko v harvester listu max. 1000000 rezultatov, vse ostalo pa kar odreže. Če želiš, ti ga kam pouploadam, je pa verjetno to daleč od vseh angleških besed, kaj šele tujejezižnih.