我有一个hortonworks hadoop集群,其中有以下内容:
所以我将以下配置用于spark:
pyspark --master yarn-client --driver-memory 2g --executor-memory 5g --num-executors 4 --executor-cores 3
Spark environment
Spark Executors
并且我有两个数据帧,例如spark Parquets(glob和ind):
ind dataframe disque usage
glob dataframe disque usage
这两个数据帧按年,月和日划分,并具有相同数量的年,月和日。
我正在2个数据帧上运行一个简单的计数作业。
“ ind”数据帧(小)需要23分钟。 而一个大的“全局”数据帧需要1.5分钟。
ind dataframe count job
ind dataframe job duration and tasks
glob dataframe count job
glob dataframe job duration and tasks
我不明白为什么这个小男孩花太长时间并且有太多任务。
我非常感谢您的帮助,谢谢大家