从内部看,RDD的外观如何?

时间:2019-03-17 17:54:33

标签: java apache-spark

我正在学习Spark。

这是我创建RDD的非常小的代码段。

JavaSparkContext sparkContext = new JavaSparkContext(sparkConf);
JavaRDD<String> inputFile = sparkContext.textFile(fileName);

在上面的代码中,inputFile正在保存来自文件的数据。只是想知道从内部来看JavaRDD数据结构是如何保存数据的。是地图,列表还是其他?

找不到上述类的任何源代码,有人可以帮我吗?

谢谢

1 个答案:

答案 0 :(得分:0)

在最新版本的Apache Spark中,内部存储由称为Tungsten的组件管理。它绕过您提到的标准Java / JVM存储(映射,列表和)。

此博客文章告诉您更多信息:https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html