应用错误收集

我的任务是编写一个Web伪爬虫来计算某些统计信息。我需要测量以<DOCTYPE开头的html文件的百分比与没有它的html文件的数量，并比较不同主题的网站之间的统计数据。要做到这一点，我们的想法是用谷歌搜索不同的术语（如“汽车”，“证券交易所”，“吸脂术”......），并要求找到前300页左右的页面。

我希望这个过程非常快，但我不想被谷歌禁止。当然，我希望尽可能缩短开发时间。也许是一些愚蠢的Perl脚本。

我是否可以重复使用现成的解决方案？使用Google我没有找到任何合适的原因，因为我想要衡量的不是HTML的一部分，而是存在于HTML文件中。

为Web统计编写伪爬虫

2 个答案: