应用错误收集

时间：2009-11-14 07:33:57

标签： list documentation web-crawler bots

我正在尝试为Web服务器上的某些文件获取准确的下载数字。我看一下用户代理，其中一些显然是机器人或网络爬虫，但很多很多我不确定，它们可能是也可能不是网络爬虫，它们导致很多下载因此对我来说很重要。

是否有某些已知的网络抓取工具列表，其中包含一些文档，如用户代理，IP，行为等？

我对谷歌，雅虎或微软等官方产品并不感兴趣。这些人通常表现良好且能够自我识别。

答案 0 :(得分：11)

我通常使用http://www.user-agents.org/作为参考，希望这可以帮助你。

答案 1 :(得分：5)

我正在https://github.com/monperrus/crawler-user-agents/维护一个抓取工具的用户代理模式列表。

它是协作的，你可以通过拉取请求为它做出贡献。

答案 2 :(得分：4)

http://www.robotstxt.org/db.html是个好地方。如果您需要，它们还具有可自动化的原始进纸。 http://www.botsvsbrowsers.com/也很有用。

答案 3 :(得分：4)

不幸的是，我们发现机器人活动太多而且多种多样，无法准确过滤它。如果您想要准确的下载次数，最好的办法是要求javascript触发下载。这基本上是唯一能够可靠地滤除机器人的东西。这也是为什么现在所有网站流量分析引擎都是基于javascript的原因。