获取所有Pdf文件Urls with Nutch2

时间:2018-03-02 14:06:48

标签: mongodb apache web-crawler nutch

我正在使用Nutch 2.3.1与MongoDB进行持久化。我的目标是在不下载的情况下提取文件URL。

现在它正在下载文件。我怎样才能禁用下载并仅在数据库中保留URL?

如何从Nutch2中提取所有已抓取的网址?

1 个答案:

答案 0 :(得分:1)

根据您想要完成的任务,这可能需要进行一些修改:

如果您不想从PDF文件中解析/提取文本,那么您可以为http.content.limit设置一个较低的值,这将基本上阻止Nutch下载更多您指定的字节,但仍然能够发现文件的URL,并将下载一个片段(您指定的字节数)。

当然,这也会影响您要提取/下载的其他网址。

一种方法是编写自己的协议插件,以防止您下载任何PDF文件。