在数千个查询中匹配海量数据记录

时间:2012-09-05 12:50:58

标签: hadoop hbase

我有很多数据记录。(大约15亿)和很多查询。(大约10万)。

每个记录都可以与多个查询匹配。(可以通过eval确定查询数据记录)

记录存储在分布式数据库中。每条记录都有一个字段,用于存储与此数据记录匹配的查询的ID。

我可以在大约15分钟内扫描所有记录。(但不对数据做任何事情)。

对于每条记录。我想用它匹配的查询ID标记它。没有大的延迟(例如:1小时)。有一个很好的算法来做到这一点?遍历查询的每个查询都不是解决方案。我认为需要某种索引。请帮忙!谢谢!

1 个答案:

答案 0 :(得分:0)

Apache Pig默认启用了多个查询。如果您的查询共享相同的数据源,那么Pig将并行执行它们,因此输入数据只读取一次。