我有以下模式的数据
person_id | category_id | date | type
每天收集的数据量巨大,平均接近95GB。 我的用例是在提供的日期范围内获取给定category_id的所有person_id。 这在csv文件的hdfs中存在。 使用spark处理3个星期时,实际转储需要半个小时。 如何对其进行预处理以提高我的Spark工作的绩效? 我尝试按日期分组,但没有太大帮助。
答案 0 :(得分:0)
您可以首先进行以下操作(因为我们没有有关您的数据或集群的详细信息。请共享您的Spark Web UI屏幕截图)
date
或person_id
进行分区