是否有已知的网络抓取工具列表?

时间:2009-11-14 07:33:57

标签: list documentation web-crawler bots

我正在尝试为Web服务器上的某些文件获取准确的下载数字。我看一下用户代理,其中一些显然是机器人或网络爬虫,但很多很多我不确定,它们可能是也可能不是网络爬虫,它们导致很多下载因此对我来说很重要。

是否有某些已知的网络抓取工具列表,其中包含一些文档,如用户代理,IP,行为等?

我对谷歌,雅虎或微软等官方产品并不感兴趣。这些人通常表现良好且能够自我识别。

4 个答案:

答案 0 :(得分:11)

我通常使用http://www.user-agents.org/作为参考,希望这可以帮助你。

您还可以尝试http://www.robotstxt.org/db.htmlhttp://www.botsvsbrowsers.com

答案 1 :(得分:5)

我正在https://github.com/monperrus/crawler-user-agents/维护一个抓取工具的用户代理模式列表。

它是协作的,你可以通过拉取请求为它做出贡献。

答案 2 :(得分:4)

http://www.robotstxt.org/db.html是个好地方。如果您需要,它们还具有可自动化的原始进纸。 http://www.botsvsbrowsers.com/也很有用。

答案 3 :(得分:4)

不幸的是,我们发现机器人活动太多而且多种多样,无法准确过滤它。如果您想要准确的下载次数,最好的办法是要求javascript触发下载。这基本上是唯一能够可靠地滤除机器人的东西。这也是为什么现在所有网站流量分析引擎都是基于javascript的原因。