现在我有一组数字,例如1,4,10,23,...
,我想使用b-tree index
为他们构建Apache Spark
。格式为每条记录每行(由'/ n'分隔)。我也不知道输出文件的格式,我只是想找一个推荐的
构建b-tree
索引的常规方法显示在https://en.wikipedia.org/wiki/B-tree中,但我现在想在Apache Spark
中使用分布式并行版本。
此外,B-tree
的Wiki引入了一种构建B树以表示大量现有数据集的方法。(参见https://en.wikipedia.org/wiki/B-tree)我似乎应该提前对其进行排序,而且我认为对于大量数据,排序非常耗时,甚至无法完成有限的内存。上面提到的这种方法是推荐的吗?
答案 0 :(得分:1)
如果RDD尚未排序,请将RDD与RDD.sort
排序。使用RDD.mapPartitions
为每个分区构建索引。然后构建一个连接每个分区索引的顶级索引。