如何使用Apache Spark构建B树索引?

时间:2015-03-07 03:41:44

标签: apache-spark b-tree b-tree-index

现在我有一组数字,例如1,4,10,23,...,我想使用b-tree index为他们构建Apache Spark。格式为每条记录每行(由'/ n'分隔)。我也不知道输出文件的格式,我只是想找一个推荐的

构建b-tree索引的常规方法显示在https://en.wikipedia.org/wiki/B-tree中,但我现在想在Apache Spark中使用分布式并行版本。

此外,B-tree的Wiki引入了一种构建B树以表示大量现有数据集的方法。(参见https://en.wikipedia.org/wiki/B-tree)我似乎应该提前对其进行排序,而且我认为对于大量数据,排序非常耗时,甚至无法完成有限的内存。上面提到的这种方法是推荐的吗?

1 个答案:

答案 0 :(得分:1)

如果RDD尚未排序,请将RDD与RDD.sort排序。使用RDD.mapPartitions为每个分区构建索引。然后构建一个连接每个分区索引的顶级索引。