apache nutch skip'parse'阶段

时间:2015-07-16 08:17:55

标签: web-crawler nutch

我正在使用apache nutch 1.10版本,我更改了源码以将原始htmls,css,js文件保存到本地磁盘上的目录,一切正常但是在获取步骤之后出现了一个缓慢的解析阶段,我怎么能跳过解析? 我使用该命令运行爬行:

$ bin/crawl  urls/  data/ 10

1 个答案:

答案 0 :(得分:0)

您正在使用bin / crawl脚本,该脚本将在generate-fetch-parse -...步骤中反复进行(轮数次)。查看nutch tutorial,您可以使用bin / nutch自己发出任何命令(并构建自己的脚本)。

但是,如果我理解你正在做什么,意味着将html / css / js索引到本地文件系统,而不是更改源,你可以create your own plugins(你需要一个parse-plugin和我认为是一个索引插件,并将它们应用于标准的nutch过程。