我正在使用Nutch 2.3.1与MongoDB进行持久化。我的目标是在不下载的情况下提取文件URL。
现在它正在下载文件。我怎样才能禁用下载并仅在数据库中保留URL?
如何从Nutch2中提取所有已抓取的网址?
答案 0 :(得分:1)
根据您想要完成的任务,这可能需要进行一些修改:
如果您不想从PDF文件中解析/提取文本,那么您可以为http.content.limit
设置一个较低的值,这将基本上阻止Nutch下载更多您指定的字节,但仍然能够发现文件的URL,并将下载一个片段(您指定的字节数)。
当然,这也会影响您要提取/下载的其他网址。
一种方法是编写自己的协议插件,以防止您下载任何PDF文件。