应用错误收集

时间：2012-03-22 15:47:48

标签： solr lucene nutch

我正在使用Nutch 1.4和solr 3.3.0来抓取并索引我的法语站点。我的网站曾经在iso8859-1。

目前我在solr下有2个索引。在第一个中我存储了我的旧页面（在iso8859-1中），在第二个中我存储了我的新页面（在utf-8中）。

我对两个抓取作业使用相同的nutch配置来获取和索引我网站上的旧页面和新页面。我没有添加任何关于章程编码的设置（我认为）。

我在搜索应该在utf-8中的新页面时遇到问题。法语字符无法正常显示。但对于iso8859-1中的旧页面来说，一切似乎都很好。

我想知道是否有人能指出我正确的方向来解决这个问题。

我认为问题来自于nutch，因为当我创建段的转储时，我在转储文件中看到了那些有趣的字符。

谢谢。

答案 0 :(得分：3)

在nutch-default.xml中，应该相应地设置“parser.character.encoding.default”值。你只需要将它设置为utf-8。它的默认值是“windows-1252”。

答案 1 :(得分：0)

我对Nutch并不熟悉，但我已经看到了其他的东西。

您应该检查或做的几件事：

我建议你做的是获取旧网站的所有旧页面，并使用像iconv这样的工具将它们转换为UTF-8。然后在您的Web服务器中对其进行配置，以便将所有文本视为UTF-8（即发回的内容类型标题为UTF-8）。