如何使用Spark将转换后的csv转换为镶木地板?

时间:2018-07-02 07:40:57

标签: apache-spark pyspark

我正在尝试使用PySpark将压缩后的大型csv文件转换为镶木地板。我是PySpark的新手。以下是我的代码。我在具有1个主节点和2个工作节点的Google集群中运行此代码。

#!/usr/bin/python
import pyspark
from pyspark.sql import SparkSession
sc = pyspark.SparkContext()
ss = SparkSession(sc)
spark = ss.builder.appName("Conversion-to-Parquet").getOrCreate()

# read csv
df = spark.read.option("header", "true").csv(
    "gs://bucket/test.csv.gz")

# Displays the content of the DataFrame to stdout
df.show(10)

df.write.parquet(
    "gs://bucket/parquet/output.parquet")

我不完全知道如何在Spark上下文中使用并行化功能来完成此任务。有人能帮我吗?此活动大约需要5分钟才能运行,GZipped文件的大小约为1.7gb。我需要知道我是否可以在更短的时间内完成此任务,以及如何完成?

先谢谢了。

0 个答案:

没有答案