Spark2日期时间查找有效的数据结构

时间:2018-08-27 20:12:30

标签: apache-spark spark-streaming apache-spark-2.1.1

我有一个Spark应用程序,其记录包含以下信息:

  • 哈希-项目的某些唯一标识符
  • 位置-物品的位置
  • 发件人-在位置首次显示该项目的日期
  • -如果仍然存在,则为null;如果项目不再位于该位置,则为日期

我只需要问一个问题:

日期时间Y的X项在哪里

为快速查找建立索引此信息的最有效方法是什么?可以说,我每天有数十亿条包含项散列的记录,我需要用它们的位置来丰富这些记录。

我的简化方法是将上面的记录存储起来,按哈希进行分区(尽管可能有大约一千万条记录),然后加入我的更大的数据源,其中哈希是相同的,并且date> From and date <至。不过,这种日期比较似乎应该有更好的解决方案。

关于如何更好地存储数据的任何建议?

0 个答案:

没有答案