标签: apache-spark apache-kafka spark-streaming
改善Spark Streaming中的改组性能有哪些方法? 基本上,我使用Spark Streaming(1.6.2)和Kafka(0.10)每天处理100 PB的数据,因为数据速度非常大,所以稳定整个Streaming应用程序非常困难。 执行所有代码级别优化并减少shuffle。 寻找一些核心调优配置,以至少改善洗牌性能。