我在AWS EMR master node上有以下代码段,用于将csv文件转换为镶木地板文件。
%pyspark
csv_path = "s3://<bucket>/file.csv"
p_path = "s3://<bucket>/file.parquet"
df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)
df.write.parquet(p_path, mode='overwrite')
如果我请求更多节点,此操作会更快吗?换句话说,是转换为镶嵌在火花簇中的镶木地板。我无法告诉我,我不想在更多节点上花钱而不知道更多关于它的信息。
答案 0 :(得分:1)
是的,它是分发的。
操作会更快吗?这取决于很多因素,但在最好的情况下,只要代码等于您(单阶段作业)的代码,它就应该在节点数量上线性扩展。
禁用模式推理并提供显式模式的另一项改进。