apache-spark - 如何使用Apache Spark构建B树索引？

时间：2015-03-07 03:41:44

标签： apache-spark b-tree b-tree-index

现在我有一组数字，例如1,4,10,23,...，我想使用b-tree index为他们构建Apache Spark。格式为每条记录每行（由'/ n'分隔）。我也不知道输出文件的格式，我只是想找一个推荐的

构建b-tree索引的常规方法显示在https://en.wikipedia.org/wiki/B-tree中，但我现在想在Apache Spark中使用分布式并行版本。

此外，B-tree的Wiki引入了一种构建B树以表示大量现有数据集的方法。（参见https://en.wikipedia.org/wiki/B-tree）我似乎应该提前对其进行排序，而且我认为对于大量数据，排序非常耗时，甚至无法完成有限的内存。上面提到的这种方法是推荐的吗？

答案 0 :(得分：1)

如果RDD尚未排序，请将RDD与RDD.sort排序。使用RDD.mapPartitions为每个分区构建索引。然后构建一个连接每个分区索引的顶级索引。