有一个类似的问题Large data - storage and query 但我认为我的问题更加困难。
我有一个庞大的数据集,为了简化问题,假设每个记录有3个字段,
日期,地点,对象
表示在哪一天,对象访问所在地。
每天可以有5000万条新记录。我需要保留100天的数据。
查询就像这样:
我应该如何设计呢?是否有可能提供解决方案?我应该试试任何工具吗?我可以使用mongodb或hadoop吗?
而且,查询不应该花费很长时间,因为它将从前端查询。
感谢。
答案 0 :(得分:0)
这个问题并不像听起来那么难。您需要两个索引:
(Location, Date, Object)
(Object, Date, Location)
这两个索引可以最佳地满足您的查询。您无需担心固有的可扩展性限制。
您可以考虑在Date
上进行分区,以便有效地删除旧分区。