nutch crawler正在爬行'as'

时间:2011-02-01 16:47:11

标签: java nutch

nutch crawler将let's抓取为Let’s y ???是否有任何设置可以改变这个字符集..

2 个答案:

答案 0 :(得分:1)

’是单个结束引号(不是撇号)的UTF-8编码,您将其解释为Windows-1252。您需要使用正确的编码(UTF-8)。 This link可能有帮助。

答案 1 :(得分:1)

我自己没有使用过Nutch,但this page看起来很相关:

  

要启用UTF-8字符的传递,请编辑$ TOMCAT / conf / server.xml。找到< Connector> web的标记(查找“8080”)并插入此参数赋值:URIEncoding =“UTF-8”,如http://tomcat.apache.org/faq/connectors.html#utf8中的Tomcat 5 FAQ中所述