应用错误收集

获取所有Pdf文件Urls with Nutch2

时间：2018-03-02 14:06:48

标签： mongodb apache web-crawler nutch

我正在使用Nutch 2.3.1与MongoDB进行持久化。我的目标是在不下载的情况下提取文件URL。

现在它正在下载文件。我怎样才能禁用下载并仅在数据库中保留URL？

如何从Nutch2中提取所有已抓取的网址？

1 个答案:

答案 0 :(得分：1)

根据您想要完成的任务，这可能需要进行一些修改：

如果您不想从PDF文件中解析/提取文本，那么您可以为http.content.limit设置一个较低的值，这将基本上阻止Nutch下载更多您指定的字节，但仍然能够发现文件的URL，并将下载一个片段（您指定的字节数）。

当然，这也会影响您要提取/下载的其他网址。

一种方法是编写自己的协议插件，以防止您下载任何PDF文件。