我有这个问题,我无法在任何地方找到答案。
我使用以下行在PySpark应用程序中加载数据:
loadFile = self.tableName+".csv"
dfInput= self.sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(loadFile)
我的群集配置如下:
在Apache Spark Standalone中,如何将分区加载到RAM?
这些都没有,我在这里遗漏了什么?我如何亲自见证这个过程(监控工具,unix命令,Spark中的某个地方)?
我可以深入研究任何评论或资源都会非常有帮助。提前致谢。
答案 0 :(得分:0)
第二种情况是正确的:
每个执行程序访问存储并加载到自己的RAM? (存储 - >执行者的RAM)