在Nutch 1.x中拒绝了URL列表

时间:2018-01-08 10:29:21

标签: regex nutch

我正在尝试从Nutch 1.x版本的seed.txt获取所有被拒绝的网址列表。

使用nutch inject命令,我可以了解被拒绝的网址数量,但有没有办法让完整的网址列表被拒绝?

1 个答案:

答案 0 :(得分:0)

您可以使用以下命令检查URL列表:

>> http://www.imdb.com/title/tt0499549/videoplayer/vi531039513?ref_=tt_ov_vi
>> Process finished with exit code 0

拒绝的网址在一行开头由cat seed_urls.txt | $NUTCH_HOME/bin/nutch filterchecker -stdin 标记。当然,您必须使用与inject命令相同的URL过滤器配置运行filterchecker。

注意:这是使用Nutch 1.14的命令,以前的版本需要参数-而不是-allCombined