Nutch可以抓取所有网站。是否有任何规则来抓取特定网站。在开始从特定网站抓取之前,是否需要获得许可。

时间:2013-05-11 04:49:17

标签: web-crawler nutch

使用抓取工具我们可以搜索任何特定网站,但这会减慢该网站的带宽。在抓取特定网站之前有任何规则或使用nutch我们可以搜索任何网站而没有问题。我想使用Nutch创建垂直搜索在上述问题部分的基础上,任何人都可以帮我解决这个问题吗?

如果特定网站没有允许在robots.txt中使用Nutch bot,那么如何使用Nutch搜索该网站?我们需要先获得许可吗。

1 个答案:

答案 0 :(得分:0)

在Nutch中,您可以配置可以向特定主机发送的并发请求数。

您可以在conf / nutch-site.xml文件中覆盖此属性。 默认情况下,Nutch将每5秒向服务器发送一次请求。

<property>
  <name>fetcher.server.delay</name>
  <value>5.0</value>
  <description>The number of seconds the fetcher will delay between 
   successive requests to the same server.</description>
</property>

在robots.txt文件中,您可以为特定用户代理字符串配置网站排除,而不是相反。 如果网站所有者未明确禁用对搜索引擎的网站访问权限,则可以使用Nutch抓取它。

e.g。排除所有搜索机器人:

User-Agent: *
Disallow: /