UTF-8字符无法正常显示

时间:2012-03-22 15:47:48

标签: solr lucene nutch

我正在使用Nutch 1.4和solr 3.3.0来抓取并索引我的法语站点。我的网站曾经在iso8859-1。

目前我在solr下有2个索引。在第一个中我存储了我的旧页面(在iso8859-1中),在第二个中我存储了我的新页面(在utf-8中)。

我对两个抓取作业使用相同的nutch配置来获取和索引我网站上的旧页面和新页面。我没有添加任何关于章程编码的设置(我认为)。

我在搜索应该在utf-8中的新页面时遇到问题。法语字符无法正常显示。但对于iso8859-1中的旧页面来说,一切似乎都很好。

我想知道是否有人能指出我正确的方向来解决这个问题。

我认为问题来自于nutch,因为当我创建段的转储时,我在转储文件中看到了那些有趣的字符。

谢谢。

2 个答案:

答案 0 :(得分:3)

在nutch-default.xml中,应该相应地设置“parser.character.encoding.default”值。你只需要将它设置为utf-8。它的默认值是“windows-1252”。

答案 1 :(得分:0)

我对Nutch并不熟悉,但我已经看到了其他的东西。

您应该检查或做的几件事:

  1. 您在网络服务器上的新网页可能无法协商其UTF-8
  2. 新网页的charset元标记可能仍为iso8859-1
  3. 我建议你做的是获取旧网站的所有旧页面,并使用像iconv这样的工具将它们转换为UTF-8。然后在您的Web服务器中对其进行配置,以便将所有文本视为UTF-8(即发回的内容类型标题为UTF-8)。