标签: apache-spark spark-streaming apache-spark-2.1.1
我有一个Spark应用程序,其记录包含以下信息:
我只需要问一个问题:
日期时间Y的X项在哪里
为快速查找建立索引此信息的最有效方法是什么?可以说,我每天有数十亿条包含项散列的记录,我需要用它们的位置来丰富这些记录。
我的简化方法是将上面的记录存储起来,按哈希进行分区(尽管可能有大约一千万条记录),然后加入我的更大的数据源,其中哈希是相同的,并且date> From and date <至。不过,这种日期比较似乎应该有更好的解决方案。
关于如何更好地存储数据的任何建议?