将CSV从HDFS读取到Pyspark数据帧时太慢

时间:2017-07-08 11:05:51

标签: python csv hadoop apache-spark hdfs

除了相应的Spark master和Namenode之外,我开发了一个Spark-HDFS集群(5个worker和5个datanode)。

我正在使用Jupyter Notebook在pyspark中编程,该笔记本用--executor-memory 30G --driver-memory 20G初始化。 当我尝试从我的HDFS将348MB csv文件加载到pyspark DataFrame中时需要aprox。 15S

我认为这个小文件需要花费很多时间。我正在使用的代码是:

sqlContext = SQLContext(sc)
df1 = sqlContext.read.load("hdfs://namenode:8020/user/***/*****.csv", format='com.databricks.spark.csv',
header='true',
sep=';',
inferSchema='true')

我考虑将其加载到RDD中,但由于DataFrames是为此开发的,我认为它更合适。此外,加载此CSV后,我必须加入另一个CSV,它只是一个列(20MB)。

0 个答案:

没有答案