应用错误收集

是否有可能定制Nutch Fetcher课程？

时间：2016-03-30 11:02:49

标签： java solr web-crawler phantomjs nutch

我成功将网页链接和索引数据抓取到solr中但是我需要为所有链接创建一个pdf文件，该文件将被爬行并索引到Solr中。我知道幻影会给我pdf，但我不明白我在Nutch配置幻像的位置。我搜索它，我知道我需要自定义Nutch的Fetcher类，但我不知道如何自定义它。请任何人都可以帮忙。我在最近两周被困在这里。

1 个答案:

答案 0 :(得分：0)

您是否考虑过以csv格式转储crawldb？我认为您可以完成您的任务（我理解的是获取Nutch要抓取的所有网址的列表），而不进行任何代码修改，并遵循以下内容。

您可以使用./bin/nutch readdb <crawldb path> -dump <output_dir> -format csv

此命令将为您提供在Nutch中获取/取消的所有网址。一旦你在csv中拥有它，你可以轻松地将其导出为pdf。

有关该命令的更多信息，请查看https://wiki.apache.org/nutch/bin/nutch%20readdb