如何避免抓取“执行”操作的URL,例如从邮件列表中取消订阅某人

时间:2012-05-12 11:57:38

标签: web-crawler

我正在编写一个在电子邮件中抓取网址的工具,以便用户可以进行重点搜索。有没有办法告诉访问过的URL我们是一个爬虫,这样用户就不会从邮件列表中订阅或取消订阅,或者不太可能在URL中采取其他操作。

否则,是否有任何聪明的方法可以通常发现某个网址仅供希望采取某些行动的人访问?

2 个答案:

答案 0 :(得分:1)

无论如何,一种有用的方法是遵守网站根目录中提供的任何robots.txt文件。

网站作者应该进行此设置,以便任何抓取工具远离他们不希望他们进入的区域。

斯图尔特。

答案 1 :(得分:0)

一般来说,没有。

没有办法可靠地推断某个特定网址是否“特定”任何东西(我猜你可以寻找模式,例如“取消订阅”,但这几乎不可靠)。

在发出HTTP请求时,你可以设置没有神奇的“我是机器人”标志。