应用错误收集

在数千个查询中匹配海量数据记录

时间：2012-09-05 12:50:58

标签： hadoop hbase

我有很多数据记录。（大约15亿）和很多查询。（大约10万）。

每个记录都可以与多个查询匹配。（可以通过eval确定查询数据记录）

记录存储在分布式数据库中。每条记录都有一个字段，用于存储与此数据记录匹配的查询的ID。

我可以在大约15分钟内扫描所有记录。（但不对数据做任何事情）。

对于每条记录。我想用它匹配的查询ID标记它。没有大的延迟（例如：1小时）。有一个很好的算法来做到这一点？遍历查询的每个查询都不是解决方案。我认为需要某种索引。请帮忙！谢谢！

1 个答案:

答案 0 :(得分：0)

Apache Pig默认启用了多个查询。如果您的查询共享相同的数据源，那么Pig将并行执行它们，因此输入数据只读取一次。