使用抓取工具我们可以搜索任何特定网站,但这会减慢该网站的带宽。在抓取特定网站之前有任何规则或使用nutch我们可以搜索任何网站而没有问题。我想使用Nutch创建垂直搜索在上述问题部分的基础上,任何人都可以帮我解决这个问题吗?
如果特定网站没有允许在robots.txt中使用Nutch bot,那么如何使用Nutch搜索该网站?我们需要先获得许可吗。
答案 0 :(得分:0)
在Nutch中,您可以配置可以向特定主机发送的并发请求数。
您可以在conf / nutch-site.xml文件中覆盖此属性。 默认情况下,Nutch将每5秒向服务器发送一次请求。
<property>
<name>fetcher.server.delay</name>
<value>5.0</value>
<description>The number of seconds the fetcher will delay between
successive requests to the same server.</description>
</property>
在robots.txt文件中,您可以为特定用户代理字符串配置网站排除,而不是相反。 如果网站所有者未明确禁用对搜索引擎的网站访问权限,则可以使用Nutch抓取它。
e.g。排除所有搜索机器人:
User-Agent: *
Disallow: /