full-text-search - 搜索＆amp;检索在线文件 - Thinbug

搜索＆amp;检索在线文件

时间：2013-03-27 14:16:42

标签： full-text-search search-engine

我需要在Java中开发一个能够通过仅考虑某些特定过滤条件（例如，包含的文本，域等）来查找Web上可用的文档（HTML，.doc，.pdf等）的应用程序。然后全部下载。

哪种方法最好？我应该使用这样的库（例如Guava？）还是已经提供这些功能的工具？

我知道有很多库（Apache Solr，Apache Nutch等），但我不确定他们是否可以完成我的所有任务。

1 个答案:

答案 0 :(得分：0)

Apache Nutch应该帮助你理解我的理解。 This和allenday's post可以帮助您使用java代码。一些关于荷兰的阅读肯定会有所帮助。