标签: full-text-search search-engine
我需要在Java中开发一个能够通过仅考虑某些特定过滤条件(例如,包含的文本,域等)来查找Web上可用的文档(HTML,.doc,.pdf等)的应用程序。然后全部下载。
哪种方法最好?我应该使用这样的库(例如Guava?)还是已经提供这些功能的工具?
我知道有很多库(Apache Solr,Apache Nutch等),但我不确定他们是否可以完成我的所有任务。
答案 0 :(得分:0)
Apache Nutch应该帮助你理解我的理解。 This和allenday's post可以帮助您使用java代码。一些关于荷兰的阅读肯定会有所帮助。