我有很多数据记录。(大约15亿)和很多查询。(大约10万)。
每个记录都可以与多个查询匹配。(可以通过eval确定查询数据记录)
记录存储在分布式数据库中。每条记录都有一个字段,用于存储与此数据记录匹配的查询的ID。
我可以在大约15分钟内扫描所有记录。(但不对数据做任何事情)。
对于每条记录。我想用它匹配的查询ID标记它。没有大的延迟(例如:1小时)。有一个很好的算法来做到这一点?遍历查询的每个查询都不是解决方案。我认为需要某种索引。请帮忙!谢谢!
答案 0 :(得分:0)
Apache Pig默认启用了多个查询。如果您的查询共享相同的数据源,那么Pig将并行执行它们,因此输入数据只读取一次。