我正在尝试使用PySpark将压缩后的大型csv文件转换为镶木地板。我是PySpark的新手。以下是我的代码。我在具有1个主节点和2个工作节点的Google集群中运行此代码。
#!/usr/bin/python
import pyspark
from pyspark.sql import SparkSession
sc = pyspark.SparkContext()
ss = SparkSession(sc)
spark = ss.builder.appName("Conversion-to-Parquet").getOrCreate()
# read csv
df = spark.read.option("header", "true").csv(
"gs://bucket/test.csv.gz")
# Displays the content of the DataFrame to stdout
df.show(10)
df.write.parquet(
"gs://bucket/parquet/output.parquet")
我不完全知道如何在Spark上下文中使用并行化功能来完成此任务。有人能帮我吗?此活动大约需要5分钟才能运行,GZipped文件的大小约为1.7gb。我需要知道我是否可以在更短的时间内完成此任务,以及如何完成?
先谢谢了。