nutch crawler将let's
抓取为Let’s
y ???是否有任何设置可以改变这个字符集..
答案 0 :(得分:1)
’
是单个结束引号(不是撇号)的UTF-8编码,您将其解释为Windows-1252。您需要使用正确的编码(UTF-8)。 This link可能有帮助。
答案 1 :(得分:1)
我自己没有使用过Nutch,但this page看起来很相关:
要启用UTF-8字符的传递,请编辑$ TOMCAT / conf / server.xml。找到< Connector> web的标记(查找“8080”)并插入此参数赋值:URIEncoding =“UTF-8”,如http://tomcat.apache.org/faq/connectors.html#utf8中的Tomcat 5 FAQ中所述