我正在使用apache nutch 1.10版本,我更改了源码以将原始htmls,css,js文件保存到本地磁盘上的目录,一切正常但是在获取步骤之后出现了一个缓慢的解析阶段,我怎么能跳过解析? 我使用该命令运行爬行:
$ bin/crawl urls/ data/ 10
答案 0 :(得分:0)
您正在使用bin / crawl脚本,该脚本将在generate-fetch-parse -...步骤中反复进行(轮数次)。查看nutch tutorial,您可以使用bin / nutch自己发出任何命令(并构建自己的脚本)。
但是,如果我理解你正在做什么,意味着将html / css / js索引到本地文件系统,而不是更改源,你可以create your own plugins(你需要一个parse-plugin和我认为是一个索引插件,并将它们应用于标准的nutch过程。