Question

使用Nutch，我如何抓取网站上的PDF然后将其编入索引？另外，有没有办法在我抓取它之后将原始PDF保存在我的服务器上，使用Nutch？

Answer 1

如果你有pdf网址：你可以直接用它来获取它。它会在你获取它时将整个pdf存储在数据库中。

如果您没有网址：一种解决方案可能是将其作为您正在抓取的网站的外链接生成。为此，您需要编写自己的解析器（或扩展当前的解析器）以将pdf URI保存为外链。因此，下次调用updateDb命令时，它们将被保存为数据库中的新行，您可以在下次爬网时获取它们。

Answer 2

这些文件位于segments文件夹中，只是没有存储为＆＃34;正常＆＃34; pdf文件。要重建段中的文件，可以使用以下命令：

bin/nutch dump  -outputDir ./out -segment ./crawldir/segments -flatdir