标签: apache-spark spark-streaming kryo
只是一个一般性问题,我有一个Spark Streaming应用程序,它以不同的速率从Kafka主题接收数据。对我来说奇怪的是,有时要花费5秒来处理一批5条记录,而同时,即使要处理500条记录也要花费5秒。当我观察为什么要花更长的时间处理5条记录时,我发现“结果序列化时间”很高。我到处都在使用Kryo序列化,并且我的代码具有重新分配逻辑,该逻辑消耗了最大时间(总共5秒)。这5条记录的数据大小约为1 KB。仍然不明白为什么要花这么长时间。有什么想法或建议吗?