我应该用Java编写一个Web爬虫。爬行部分很容易,但索引部分很难。我需要能够查询索引器并让它返回匹配(多个单词查询)。做这样的事情的最佳数据结构是什么?
答案 0 :(得分:1)
答案 1 :(得分:1)
指数和解决方案的解决方案搜索步骤是使用inverted index数据结构,以及实现此目的的最佳可用开源软件包,用于编制索引。搜索结果为Lucence。
还有一些开源项目为爬行,索引和提供复合解决方案。搜索可能感兴趣的步骤,例如nutch
此信息检索free online book可能会对您有所帮助(请参阅constructing an inverted index一章)。
答案 2 :(得分:0)
如果您从头开始构建它,则应该查看inverted index数据结构。如果您可以使用现成的,请查看Nutch项目。