使用pyspark分发csv镶木地板?

时间:2017-10-21 02:59:47

标签: amazon-web-services apache-spark pyspark emr parquet

我在AWS EMR master node上有以下代码段,用于将csv文件转换为镶木地板文件。

%pyspark


csv_path = "s3://<bucket>/file.csv"
p_path = "s3://<bucket>/file.parquet"

df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)
df.write.parquet(p_path, mode='overwrite')

如果我请求更多节点,此操作会更快吗?换句话说,是转换为镶嵌在火花簇中的镶木地板。我无法告诉我,我不想在更多节点上花钱而不知道更多关于它的信息。

1 个答案:

答案 0 :(得分:1)

是的,它是分发的。

操作会更快吗?这取决于很多因素,但在最好的情况下,只要代码等于您(单阶段作业)的代码,它就应该在节点数量上线性扩展。

禁用模式推理并提供显式模式的另一项改进。