我正在使用Twitter流媒体,我正在搜索20,000个关键字,如
https://stream.twitter.com/1/statuses/filter.json?delimited=length&track=api,software,hardwate,etc
现在,我正在使用顺序搜索,例如for循环,但是花费很长时间搜索一个twit为20,000个关键字。
java中是否提供了最佳搜索方法来搜索来自高流量http / web的数据。
答案 0 :(得分:0)
如果您的数据无需实时处理,则可以使用 information retrieval (IR)技术。
让后端服务器为您“过夜” 1 索引所有数据。它会创建一个inverted index,并会收听您的应用。
您的应用程序将查询后端服务器(而不是流媒体服务器),并在标准IR技术中“询问”所需关键字作为查询。
您可以使用Apache Lucene来帮助您。 Lucene是一个成熟的开源信息检索库,因此它可以帮助您进行索引和查询。
希望有所帮助
(1)在这里“过夜”意味着其中之一: