我有一个示例问题。我有一个url和它的html作为输入,我需要获取不允许被抓取者抓取的元素作为googlebot useragent。
Robots.txt文件没有提供所有未抓取的元素,我有一个问题就是检测这些元素。
你对此有什么想法吗?非常感谢你
答案 0 :(得分:0)
我认为,按元素,您指的是指向页面外资源的链接。看看crawler-commons,它有一个用于处理机器人文件的API。您需要获取机器人页面,在使用crawler-commons解析后,您将能够检查给定用户代理是否允许使用特定URL。
StormCrawler等网络抓取工具默认执行此操作。