如何从一步到下一步跳过Apache nutch

时间:2015-02-02 07:18:25

标签: apache web-crawler nutch

我正在使用apache Nutch 2.3。我想跳过apache nutch的fetch步骤到解析的下一步,即假设我的爬行处于feting状态,我想去解析步骤以便它尽早完成。

我如何从一步到另一步跳过apache nutch?

1 个答案:

答案 0 :(得分:1)

由于Apache Nutch基于Hadoop,因此逐步应用了不同的任务。这意味着在完成注入后生成。在生成等之后获取提取。但是对于解析步骤,为了更改默认的nutch行为,可以使用配置。

<property>
    <name>fetcher.parse</name>
    <value>true</value>
    <description>For merge parse and fetch set it true</description>
</property>

fetcher.parse的默认值为false。您必须将其更改为true并将其放在nutch-site.xml内。此参数更改默认解析机制,以便同时进行解析和提取。对于nutch的其他任务,我担心你必须自己进行开发。