获取Google Bot未抓取的元素

时间:2017-05-16 11:35:42

标签: web-crawler user-agent robots.txt

我有一个示例问题。我有一个url和它的html作为输入,我需要获取不允许被抓取者抓取的元素作为googlebot useragent。

Robots.txt文件没有提供所有未抓取的元素,我有一个问题就是检测这些元素。

你对此有什么想法吗?非常感谢你

1 个答案:

答案 0 :(得分:0)

我认为,按元素,您指的是指向页面外资源的链接。看看crawler-commons,它有一个用于处理机器人文件的API。您需要获取机器人页面,在使用crawler-commons解析后,您将能够检查给定用户代理是否允许使用特定URL。

StormCrawler等网络抓取工具默认执行此操作。