Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property.
at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166)
at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1068)
at org.apache.nutch.crawl.Crawl.run(Crawl.java:135)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:54)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:616)
at org.apache.hadoop.util.RunJar.main(RunJar.java:156)
每次我跑./nutch crawl urls -dir crawl -depth 3 -topN 5。 nutch决定抛出这个错误。我有我的nutch-site.xml& nutch-default.xml设置为。
<property>
<name>http.agent.name</name>
<value>blah</value>
</property>
取出描述以使其更易于阅读。但我没有看到可以指定代理名称的其他位置。如果有人有任何建议我会很感激。
答案 0 :(得分:16)
使用1.3?如果是这样,请确保在runtime / local / conf中更改了nutch-site.xml(而不是默认值) 除非使用ant重建,否则不会将NUTCH_HOME / conf中的conf更改为运行时目录。
答案 1 :(得分:0)
尝试同时提供http.robots.agents的代理名称。它对我有用。我之后没有得到那条消息!!!