应用错误收集

我有一个Spark应用程序，其记录包含以下信息：

我只需要问一个问题：

日期时间Y的X项在哪里

为快速查找建立索引此信息的最有效方法是什么？可以说，我每天有数十亿条包含项散列的记录，我需要用它们的位置来丰富这些记录。

我的简化方法是将上面的记录存储起来，按哈希进行分区（尽管可能有大约一千万条记录），然后加入我的更大的数据源，其中哈希是相同的，并且date> From and date <至。不过，这种日期比较似乎应该有更好的解决方案。

关于如何更好地存储数据的任何建议？