搜索&检索在线文件

时间:2013-03-27 14:16:42

标签: full-text-search search-engine

我需要在Java中开发一个能够通过仅考虑某些特定过滤条件(例如,包含的文本,域等)来查找Web上可用的文档(HTML,.doc,.pdf等)的应用程序。然后全部下载。

哪种方法最好?我应该使用这样的库(例如Guava?)还是已经提供这些功能的工具?

我知道有很多库(Apache Solr,Apache Nutch等),但我不确定他们是否可以完成我的所有任务。

1 个答案:

答案 0 :(得分:0)

Apache Nutch应该帮助你理解我的理解。 Thisallenday's post可以帮助您使用java代码。一些关于荷兰的阅读肯定会有所帮助。