好的,所以我正在尝试设置nutch来抓取网站并将网页编入索引。我目前正在使用Nutch 1.9和Solr 4.10.2 我已按照以下说明操作:http://wiki.apache.org/nutch/NutchTutorial#A4._Setup_Solr_for_search
爬行看起来很好但是当我在Solr上检查集合时(使用web ui)没有索引的文件......我知道哪里可以检查问题?
答案 0 :(得分:1)
发现我的问题,如果其他人有相同的症状,我会留下答案:
我的问题是代理配置。我的linux盒子的代理配置为在系统范围内应用,但我还必须配置Nutch以使用相同的代理。一旦我改变了它,它就开始起作用了。
配置在config / nutch-default.xml
下使用更多信息进行修改
更具体地说,这是我必须更改的代理配置:
<property>
<name>http.proxy.host</name>
<value>xxx.xxx.xxx</value>
<description>The proxy hostname. If empty, no proxy is used.</description>
</property>