应用错误收集

只是一个一般性问题，我有一个Spark Streaming应用程序，它以不同的速率从Kafka主题接收数据。对我来说奇怪的是，有时要花费5秒来处理一批5条记录，而同时，即使要处理500条记录也要花费5秒。当我观察为什么要花更长的时间处理5条记录时，我发现“结果序列化时间”很高。我到处都在使用Kryo序列化，并且我的代码具有重新分配逻辑，该逻辑消耗了最大时间（总共5秒）。这5条记录的数据大小约为1 KB。仍然不明白为什么要花这么长时间。有什么想法或建议吗？

Spark减少结果序列化时间

0 个答案: