除了相应的Spark master和Namenode之外,我开发了一个Spark-HDFS集群(5个worker和5个datanode)。
我正在使用Jupyter Notebook在pyspark中编程,该笔记本用--executor-memory 30G --driver-memory 20G
初始化。
当我尝试从我的HDFS将348MB csv文件加载到pyspark DataFrame中时需要aprox。 15S
我认为这个小文件需要花费很多时间。我正在使用的代码是:
sqlContext = SQLContext(sc)
df1 = sqlContext.read.load("hdfs://namenode:8020/user/***/*****.csv", format='com.databricks.spark.csv',
header='true',
sep=';',
inferSchema='true')
我考虑将其加载到RDD中,但由于DataFrames是为此开发的,我认为它更合适。此外,加载此CSV后,我必须加入另一个CSV,它只是一个列(20MB)。