标签: web-crawler nutch
使用Nutch从网站上收集网址,并注意到运行了大约一天后,我的ip地址被一些我根本没有抓过的主要网站列入了黑名单。经过进一步鼓动,似乎我的IP地址以某种方式被列在反垃圾邮件数据库中,这可以解释原因。
考虑到我已经在遵循默认配置和礼貌规则,我想知道是否有人知道如何防止这种情况发生? Google和其他主要搜索引擎如何解决此问题?我必须拥有大量的IP地址吗?