Nutch获取的页面未被索引到Solr中

时间:2014-12-02 17:26:25

标签: solr indexing nutch

好的,所以我正在尝试设置nutch来抓取网站并将网页编入索引。我目前正在使用Nutch 1.9和Solr 4.10.2 我已按照以下说明操作:http://wiki.apache.org/nutch/NutchTutorial#A4._Setup_Solr_for_search

爬行看起来很好但是当我在Solr上检查集合时(使用web ui)没有索引的文件......我知道哪里可以检查问题?

1 个答案:

答案 0 :(得分:1)

发现我的问题,如果其他人有相同的症状,我会留下答案:

我的问题是代理配置。我的linux盒子的代理配置为在系统范围内应用,但我还必须配置Nutch以使用相同的代理。一旦我改变了它,它就开始起作用了。

配置在config / nutch-default.xml

使用更多信息进行修改

更具体地说,这是我必须更改的代理配置:

<property>
  <name>http.proxy.host</name>
  <value>xxx.xxx.xxx</value>
  <description>The proxy hostname.  If empty, no proxy is used.</description>
</property>