当输入文件大小小~2GB时,我的火花程序工作正常并正确处理所有记录。使用8GB运行时,相同的程序不考虑所有输入记录并仅处理90%的记录。
我尝试更改Spark Submit参数,但它无法正常工作。请建议。
即使Spark UI也在“输入大小/记录:”字段中显示的记录数量较少
spark-submit --deploy-mode client --master yarn --executor-memory 6G --executor-cores 5 --num-executors 25 --class com.test.spark.etc