JAVA中流式API的最佳搜索算法

时间:2012-08-21 13:31:32

标签: java search

我正在使用Twitter流媒体,我正在搜索20,000个关键字,如

https://stream.twitter.com/1/statuses/filter.json?delimited=length&track=api,software,hardwate,etc

现在,我正在使用顺序搜索,例如for循环,但是花费很长时间搜索一个twit为20,000个关键字。

java中是否提供了最佳搜索方法来搜索来自高流量http / web的数据。

1 个答案:

答案 0 :(得分:0)

如果您的数据无需实时处理,则可以使用 information retrieval (IR)技术。

让后端服务器为您“过夜” 1 索引所有数据。它会创建一个inverted index,并会收听您的应用。
您的应用程序将查询后端服务器(而不是流媒体服务器),并在标准IR技术中“询问”所需关键字作为查询。

您可以使用Apache Lucene来帮助您。 Lucene是一个成熟的开源信息检索库,因此它可以帮助您进行索引和查询。

希望有所帮助


(1)在这里“过夜”意味着其中之一:

  1. 如果有时间应用程序处于非活动状态 - 则可以
  2. 完成
  3. 有些库支持要查询的索引 并在同一时间建造。我不记得lucene是否是其中之一 它们。
  4. 您可以使用2台服务器,并且在每个时间点 - 一个将构建索引,另一个将可用于查询。