Question

我正在使用Twitter流媒体，我正在搜索20,000个关键字，如

https://stream.twitter.com/1/statuses/filter.json?delimited=length&track=api,software,hardwate,etc

现在，我正在使用顺序搜索，例如for循环，但是花费很长时间搜索一个twit为20,000个关键字。

java中是否提供了最佳搜索方法来搜索来自高流量http / web的数据。

Answer 1

如果您的数据无需实时处理，则可以使用 information retrieval （IR）技术。

让后端服务器为您“过夜”¹索引所有数据。它会创建一个inverted index，并会收听您的应用。
您的应用程序将查询后端服务器（而不是流媒体服务器），并在标准IR技术中“询问”所需关键字作为查询。

您可以使用Apache Lucene来帮助您。 Lucene是一个成熟的开源信息检索库，因此它可以帮助您进行索引和查询。

希望有所帮助

（1）在这里“过夜”意味着其中之一：