Solr Web爬网没有索引301重定向

时间:2016-06-16 15:59:10

标签: apache solr lucene

我正在尝试使用 Apache Solr v6.0.1 索引网站。 Solr通常正确索引,但跳过301重定向并带有警告

我使用以下命令索引网站,即

post -c getting-started https://example.com -recursive 5 -delay 1

结果如下:

Entering crawl at level 1 (118 links total, 117 new)
SimplePostTool: WARNING: The URL https://example.com/help/guides returned a HTTP result status of 301

我确认301重定向页面没有从Solr管理查询工具中抓取。

关于301重定向网址,我是否需要进行任何配置更改?

非常感谢任何帮助。

1 个答案:

答案 0 :(得分:0)

经过多次努力之后,最好使用Nutch索引Solr,这真的很容易。按照Apache的分步教程:

Nutch 1.x
https://wiki.apache.org/nutch/NutchTutorial

Nutch 2x
https://wiki.apache.org/nutch/Nutch2Tutorial