如何以镶木地板格式将11k列数据插入到配置单元表中?

时间:2019-06-06 08:50:24

标签: java apache-spark parquet

我正在运行一个火花作业,其中我尝试从数据集 ds 中以拼花格式进行选择后,将11k列数据插入表中。

ds.repartition(123).write().mode("overwrite").format("parquet").option("spark.sql.parquet.compression.codec", "snappy").insertInto("db.iParquetTable");

数据大小为1232 MB。使用以下配置启动Spark作业。

spark-submit -v \
--driver-memory 3g \
--master yarn \
--deploy-mode client \
--num-executors 3 \
--executor-cores 2 \
--executor-memory 2g
--class com.package.Driver \
/user/home/mohit/testRun.jar

但是,在将数据插入parquetTable时,工作卡住了,在YARN的执行者UI上看不到任何执行者正在运行。不确定我在这里面临的所有性能问题。任何帮助将不胜感激。

0 个答案:

没有答案