我们有一个高容量流媒体作业(Spark / Kafka),数据(avro)需要按有效负载内的时间戳字段进行分组。我们在RDD上做groupBy来实现这个目的:RDD [Timestamp,Iterator [Records]]。这适用于体面的音量记录。但对于每10秒150k的负载,随机读取时间超过10秒,它会减慢一切。
所以我的问题是,切换到结构化流媒体并在DF上使用groupBy将有助于此。我知道它有Catalyst / Optimizer,特别是在像SQL这样的工作中。但仅仅是为了对数据进行分组,这会有帮助吗?任何人有任何想法或用例,他们有类似的问题,它有助于表现?