遵循Apache Nutch教程:
如教程中所示,我已将regex-urlfilter.txt的最后一行设置为:
+^http://([a-z0-9]*\.)*nutch.apache.org/
我的nutch-site.xml文件只包含行
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
我的seed.txt文件是:
http://nutch.apache.org/
然而,当我爬
时bin/nutch crawl urls -dir crawl -depth 3 -topN 5
我收到“无网址提取”错误。谁知道为什么?
答案 0 :(得分:0)
配置看起来很好。您已在运行时/本地文件夹中进行了这些更改吗? seed.txt将在NUTCH_HOME / runtime / local / urls文件夹中 regex-urlfilter.txt和nutch-site.xml将在NUTCH_HOME / runtime / local / conf文件夹中
NUTCH_HOME是安装目录