我正在尝试为Web服务器上的某些文件获取准确的下载数字。我看一下用户代理,其中一些显然是机器人或网络爬虫,但很多很多我不确定,它们可能是也可能不是网络爬虫,它们导致很多下载因此对我来说很重要。
是否有某些已知的网络抓取工具列表,其中包含一些文档,如用户代理,IP,行为等?
我对谷歌,雅虎或微软等官方产品并不感兴趣。这些人通常表现良好且能够自我识别。
答案 0 :(得分:11)
我通常使用http://www.user-agents.org/作为参考,希望这可以帮助你。
您还可以尝试http://www.robotstxt.org/db.html或http://www.botsvsbrowsers.com。
答案 1 :(得分:5)
我正在https://github.com/monperrus/crawler-user-agents/维护一个抓取工具的用户代理模式列表。
它是协作的,你可以通过拉取请求为它做出贡献。
答案 2 :(得分:4)
http://www.robotstxt.org/db.html是个好地方。如果您需要,它们还具有可自动化的原始进纸。 http://www.botsvsbrowsers.com/也很有用。
答案 3 :(得分:4)
不幸的是,我们发现机器人活动太多而且多种多样,无法准确过滤它。如果您想要准确的下载次数,最好的办法是要求javascript触发下载。这基本上是唯一能够可靠地滤除机器人的东西。这也是为什么现在所有网站流量分析引擎都是基于javascript的原因。