我正在尝试从Nutch 1.x版本的seed.txt
获取所有被拒绝的网址列表。
使用nutch inject
命令,我可以了解被拒绝的网址数量,但有没有办法让完整的网址列表被拒绝?
答案 0 :(得分:0)
您可以使用以下命令检查URL列表:
>> http://www.imdb.com/title/tt0499549/videoplayer/vi531039513?ref_=tt_ov_vi
>> Process finished with exit code 0
拒绝的网址在一行开头由cat seed_urls.txt | $NUTCH_HOME/bin/nutch filterchecker -stdin
标记。当然,您必须使用与inject命令相同的URL过滤器配置运行filterchecker。
注意:这是使用Nutch 1.14的命令,以前的版本需要参数-
而不是-allCombined
。