我的任务是编写一个Web伪爬虫来计算某些统计信息。我需要测量以<DOCTYPE
开头的html文件的百分比与没有它的html文件的数量,并比较不同主题的网站之间的统计数据。要做到这一点,我们的想法是用谷歌搜索不同的术语(如“汽车”,“证券交易所”,“吸脂术”......),并要求找到前300页左右的页面。
我希望这个过程非常快,但我不想被谷歌禁止。当然,我希望尽可能缩短开发时间。也许是一些愚蠢的Perl脚本。
我是否可以重复使用现成的解决方案?使用Google我没有找到任何合适的原因,因为我想要衡量的不是HTML的一部分,而是存在于HTML文件中。