在Spark 1.6中如何避免数据偏斜问题并均匀分布数据

时间:2017-10-05 17:25:04

标签: apache-spark apache-spark-sql spark-dataframe spark-streaming apache-spark-mllib

您好我正在读取包含json格式记录的序列文件,当读取转换为Dataframe的json记录导致数据偏斜问题时,您可以看到表单Spark UI屏幕截图。如何避免这种数据倾斜问题?

mitarbeiternummer_abwesenheit:26
abwesend_von:20171001
abwesend_bis:20171031

261已完成的任务

val src = sc.sequenceFile(FilePath, classOf[Text], classOf[Text] )
val df = sqlCntxt.read.json(src)

1 个答案:

答案 0 :(得分:-1)

如果您没有执行任何连接操作,则不会出现数据偏差。看起来你只是想读取JSON文件。

当您尝试使用非常小的数据集连接异常庞大的数据集时,或者根据您的连接条件不均匀地分布数据时,您会遇到数据偏斜问题。