错误Nutch没有列出' http.agent.name'

时间:2014-11-24 11:48:36

标签: apache web-crawler nutch

我正在使用nutch2.2.1。日志文件生成以下错误

ERROR protocol.RobotRulesParser - 我们做广告的代理(nutch-spider-2.2.1)未在#http; robots.agents'中首先列出。属性!

我的nutch-site.xml是(对于上面的属性)

<property>
<name>http.agent.name</name>
<value>nutch-spider-2.2.1</value>
</property>

我的nutch-default.xml是

<property>
<name>http.agent.name</name>
<value></value>
</property>

实际问题在哪里?请明确指导(正确解释)。 这个问题是here发布的,但我必须提出这个问题(如果需要),这就是为什么要再次发布这个问题。

1 个答案:

答案 0 :(得分:3)

你应该添加&#34; http.robots.agents&#34;的属性。并将http.agent.name的值作为第一个代理名称,并将默认值保留在list的末尾。只需:

<property>
     <name>http.robots.agents</name>
     <value>nutch-spider-2.2.1,*</value>
</property>