我正在运行一个火花作业,其中我尝试从数据集 ds 中以拼花格式进行选择后,将11k列数据插入表中。
ds.repartition(123).write().mode("overwrite").format("parquet").option("spark.sql.parquet.compression.codec", "snappy").insertInto("db.iParquetTable");
数据大小为1232 MB。使用以下配置启动Spark作业。
spark-submit -v \
--driver-memory 3g \
--master yarn \
--deploy-mode client \
--num-executors 3 \
--executor-cores 2 \
--executor-memory 2g
--class com.package.Driver \
/user/home/mohit/testRun.jar
但是,在将数据插入parquetTable时,工作卡住了,在YARN的执行者UI上看不到任何执行者正在运行。不确定我在这里面临的所有性能问题。任何帮助将不胜感激。