我在seeds.text中使用的网页中有近500个链接。但是将源链接保留在seeds.text文件中,注入urls可以很好地工作并从文件中检索确切数目的url。
但是,一旦我开始使用generate -topN命令说出30个网址,它只会返回1个网址。我每次尝试使用不同的数字及其相同的(1 url)。我也尝试过使用fetch-parse-update的周期,结果仍然相同。
是否需要更改任何配置,以便获取源URL后的小结会生成所有列表,然后爬网到所有列表。可以修改任何属性或xml文件。 下面是“ generate -topN 10”命令的快照
abhisar @ abhisarproject:〜/ apache-nutch-2.3.1 $ runtime / local / bin / nutch generate -topN 10 GeneratorJob:开始于2019-02-23 13:53:07 GeneratorJob:选择得分最高的网址以进行抓取。 GeneratorJob:启动 GeneratorJob:过滤:true GeneratorJob:规范化:true GeneratorJob:topN:10 GeneratorJob:完成于2019-02-23 13:53:13,经过的时间:00:00:06 GeneratorJob:生成的批次ID:1550926387-1197294614包含1个URL
预先感谢