我正在使用apache Nutch 2.3。我想跳过apache nutch的fetch步骤到解析的下一步,即假设我的爬行处于feting状态,我想去解析步骤以便它尽早完成。
我如何从一步到另一步跳过apache nutch?
答案 0 :(得分:1)
由于Apache Nutch基于Hadoop,因此逐步应用了不同的任务。这意味着在完成注入后生成。在生成等之后获取提取。但是对于解析步骤,为了更改默认的nutch行为,可以使用配置。
<property>
<name>fetcher.parse</name>
<value>true</value>
<description>For merge parse and fetch set it true</description>
</property>
fetcher.parse的默认值为false。您必须将其更改为true并将其放在nutch-site.xml
内。此参数更改默认解析机制,以便同时进行解析和提取。对于nutch的其他任务,我担心你必须自己进行开发。