应用错误收集

获取Google Bot未抓取的元素

时间：2017-05-16 11:35:42

标签： web-crawler user-agent robots.txt

我有一个示例问题。我有一个url和它的html作为输入，我需要获取不允许被抓取者抓取的元素作为googlebot useragent。

Robots.txt文件没有提供所有未抓取的元素，我有一个问题就是检测这些元素。

你对此有什么想法吗？非常感谢你

1 个答案:

答案 0 :(得分：0)

我认为，按元素，您指的是指向页面外资源的链接。看看crawler-commons，它有一个用于处理机器人文件的API。您需要获取机器人页面，在使用crawler-commons解析后，您将能够检查给定用户代理是否允许使用特定URL。

StormCrawler等网络抓取工具默认执行此操作。