您好我正在读取包含json格式记录的序列文件,当读取转换为Dataframe的json记录导致数据偏斜问题时,您可以看到表单Spark UI屏幕截图。如何避免这种数据倾斜问题?
mitarbeiternummer_abwesenheit:26
abwesend_von:20171001
abwesend_bis:20171031
261已完成的任务
val src = sc.sequenceFile(FilePath, classOf[Text], classOf[Text] )
val df = sqlCntxt.read.json(src)
答案 0 :(得分:-1)
如果您没有执行任何连接操作,则不会出现数据偏差。看起来你只是想读取JSON文件。
当您尝试使用非常小的数据集连接异常庞大的数据集时,或者根据您的连接条件不均匀地分布数据时,您会遇到数据偏斜问题。