应用错误收集

除了相应的Spark master和Namenode之外，我开发了一个Spark-HDFS集群（5个worker和5个datanode）。

我正在使用Jupyter Notebook在pyspark中编程，该笔记本用--executor-memory 30G --driver-memory 20G初始化。当我尝试从我的HDFS将348MB csv文件加载到pyspark DataFrame中时需要aprox。 15S

我认为这个小文件需要花费很多时间。我正在使用的代码是：

sqlContext = SQLContext(sc)
df1 = sqlContext.read.load("hdfs://namenode:8020/user/***/*****.csv", format='com.databricks.spark.csv',
header='true',
sep=';',
inferSchema='true')

我考虑将其加载到RDD中，但由于DataFrames是为此开发的，我认为它更合适。此外，加载此CSV后，我必须加入另一个CSV，它只是一个列（20MB）。

将CSV从HDFS读取到Pyspark数据帧时太慢

0 个答案: