应用错误收集

我们有一个高容量流媒体作业（Spark / Kafka），数据（avro）需要按有效负载内的时间戳字段进行分组。我们在RDD上做groupBy来实现这个目的：RDD [Timestamp，Iterator [Records]]。这适用于体面的音量记录。但对于每10秒150k的负载，随机读取时间超过10秒，它会减慢一切。

所以我的问题是，切换到结构化流媒体并在DF上使用groupBy将有助于此。我知道它有Catalyst / Optimizer，特别是在像SQL这样的工作中。但仅仅是为了对数据进行分组，这会有帮助吗？任何人有任何想法或用例，他们有类似的问题，它有助于表现？

Spark Streaming groupBy on RDD vs Structured Streaming groupBy on DF（Scala / Spark）

0 个答案: