是否有可能定制Nutch Fetcher课程?

时间:2016-03-30 11:02:49

标签: java solr web-crawler phantomjs nutch

我成功将网页链接和索引数据抓取到solr中 但是我需要为所有链接创建一个pdf文件,该文件将被爬行并索引到Solr中。 我知道幻影会给我pdf,但我不明白我在Nutch配置幻像的位置。 我搜索它,我知道我需要自定义Nutch的Fetcher类,但我不知道如何自定义它。 请任何人都可以帮忙。我在最近两周被困在这里。

1 个答案:

答案 0 :(得分:0)

您是否考虑过以csv格式转储crawldb?我认为您可以完成您的任务(我理解的是获取Nutch要抓取的所有网址的列表),而不进行任何代码修改,并遵循以下内容。

您可以使用./bin/nutch readdb <crawldb path> -dump <output_dir> -format csv

此命令将为您提供在Nutch中获取/取消的所有网址。 一旦你在csv中拥有它,你可以轻松地将其导出为pdf。

有关该命令的更多信息,请查看https://wiki.apache.org/nutch/bin/nutch%20readdb