Question

我正在使用apache nutch 1.10版本，我更改了源码以将原始htmls，css，js文件保存到本地磁盘上的目录，一切正常但是在获取步骤之后出现了一个缓慢的解析阶段，我怎么能跳过解析？我使用该命令运行爬行：

$ bin/crawl  urls/  data/ 10

Answer 1

您正在使用bin / crawl脚本，该脚本将在generate-fetch-parse -...步骤中反复进行（轮数次）。查看nutch tutorial，您可以使用bin / nutch自己发出任何命令（并构建自己的脚本）。

但是，如果我理解你正在做什么，意味着将html / css / js索引到本地文件系统，而不是更改源，你可以create your own plugins（你需要一个parse-plugin和我认为是一个索引插件，并将它们应用于标准的nutch过程。