如何抓取PDF文件以便将其编入索引并保存在我的服务器上,使用Nutch?

时间:2016-12-09 15:27:06

标签: nutch

使用Nutch,我如何抓取网站上的PDF然后将其编入索引?另外,有没有办法在我抓取它之后将原始PDF保存在我的服务器上,使用Nutch?

2 个答案:

答案 0 :(得分:0)

如果你有pdf网址:你可以直接用它来获取它。它会在你获取它时将整个pdf存储在数据库中。

如果您没有网址:一种解决方案可能是将其作为您正在抓取的网站的外链接生成。为此,您需要编写自己的解析器(或扩展当前的解析器)以将pdf URI保存为外链。因此,下次调用updateDb命令时,它们将被保存为数据库中的新行,您可以在下次爬网时获取它们。

答案 1 :(得分:0)

这些文件位于segments文件夹中,只是没有存储为"正常" pdf文件。要重建段中的文件,可以使用以下命令:

bin/nutch dump  -outputDir ./out -segment ./crawldir/segments -flatdir

注释

  1. 您可以查看完整的参数列表及其说明 从命令行键入bin/nutch dump
  2. 由文件输出的文件的前置字母数字序列 上面的命令是网站网址的md5哈希。