使用Nutch,我如何抓取网站上的PDF然后将其编入索引?另外,有没有办法在我抓取它之后将原始PDF保存在我的服务器上,使用Nutch?
答案 0 :(得分:0)
如果你有pdf网址:你可以直接用它来获取它。它会在你获取它时将整个pdf存储在数据库中。
如果您没有网址:一种解决方案可能是将其作为您正在抓取的网站的外链接生成。为此,您需要编写自己的解析器(或扩展当前的解析器)以将pdf URI保存为外链。因此,下次调用updateDb命令时,它们将被保存为数据库中的新行,您可以在下次爬网时获取它们。
答案 1 :(得分:0)
这些文件位于segments
文件夹中,只是没有存储为"正常" pdf文件。要重建段中的文件,可以使用以下命令:
bin/nutch dump -outputDir ./out -segment ./crawldir/segments -flatdir
bin/nutch dump
。md5
哈希。