Nutch 1.12,为什么获取的数据乱码文本?

时间:2016-06-30 08:50:22

标签: java macos apache nutch

更新:已解决

原来我是个白痴。 Nutch创建的文件是Hadoop序列文件,需要使用类SequenceFile读取和写入。

我在this guide之后建立了Nutch 1.x,我认为它是1.12。

我在OS X上,并使用JDK 1.8.0_92(最新版本)执行此操作。

我在nutch-site.xml中添加了以下代码,并用它们更改了nutch-default.xml。

<property>
    <name>parser.character.encoding.default</name>
    <value>utf-8</value>
</property>

我甚至硬编码./src/plugin/parse-html/src/java/org/apache/nutch/parse/html/HtmlParser.java

private final String defaultCharEncoding="UTF-8";
this.defaultCharEncoding = getConf().get(
    "parser.character.encoding.default", "UTF-8");

然后我运行了以下主要类(我正在爬行reddit):

org.apache.nutch.crawl.Injector
org.apache.nutch.crawl.Generator
org.apache.nutch.fetcher.Fetcher
org.apache.nutch.parse.ParseSegment

完成得很好。

但是获取的数据文件都是乱码文本,如下所示:

£aπHÉ“EJöIIμí╦÷t║½ü&安培;║╗└&GT;Bûb┐∞≈²ôg3½·U(╖

我已经被困了几个小时了,请帮忙。

0 个答案:

没有答案