我正在使用Nutch 1.4和solr 3.3.0来抓取并索引我的法语站点。我的网站曾经在iso8859-1。
目前我在solr下有2个索引。在第一个中我存储了我的旧页面(在iso8859-1中),在第二个中我存储了我的新页面(在utf-8中)。
我对两个抓取作业使用相同的nutch配置来获取和索引我网站上的旧页面和新页面。我没有添加任何关于章程编码的设置(我认为)。
我在搜索应该在utf-8中的新页面时遇到问题。法语字符无法正常显示。但对于iso8859-1中的旧页面来说,一切似乎都很好。
我想知道是否有人能指出我正确的方向来解决这个问题。
我认为问题来自于nutch,因为当我创建段的转储时,我在转储文件中看到了那些有趣的字符。
谢谢。
答案 0 :(得分:3)
在nutch-default.xml中,应该相应地设置“parser.character.encoding.default”值。你只需要将它设置为utf-8。它的默认值是“windows-1252”。
答案 1 :(得分:0)
我对Nutch并不熟悉,但我已经看到了其他的东西。
您应该检查或做的几件事:
我建议你做的是获取旧网站的所有旧页面,并使用像iconv这样的工具将它们转换为UTF-8。然后在您的Web服务器中对其进行配置,以便将所有文本视为UTF-8(即发回的内容类型标题为UTF-8)。