我正在学习Spark。
这是我创建RDD的非常小的代码段。
JavaSparkContext sparkContext = new JavaSparkContext(sparkConf);
JavaRDD<String> inputFile = sparkContext.textFile(fileName);
在上面的代码中,inputFile
正在保存来自文件的数据。只是想知道从内部来看JavaRDD数据结构是如何保存数据的。是地图,列表还是其他?
找不到上述类的任何源代码,有人可以帮我吗?
谢谢
答案 0 :(得分:0)
在最新版本的Apache Spark中,内部存储由称为Tungsten的组件管理。它绕过您提到的标准Java / JVM存储(映射,列表和)。
此博客文章告诉您更多信息:https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html。