Scala与Python的Spark结构化流性能

时间:2020-06-09 09:30:52

标签: scala apache-spark pyspark apache-kafka spark-structured-streaming

嗨〜我要用 Kafka + Spark结构化流开发一个迷你程序。但是我很困惑,无论使用python还是scala,这都更快。如果在Scala和Python之间获得关于Spark结构化流的任何基准性能结果,那会更好。

1 个答案:

答案 0 :(得分:1)

这不是真正的问题。

唯一的问题是:1)Scala速度更快,但每个微批处理的数据规模可能意味着影响较小; 2)Scala拥有对类型的数据集支持,而pyspark没有。

大多数将Scala和pyspark用于数据科学。

这表示使用pyspark进行实时机器学习可能会更好。例如,请参见:https://towardsdatascience.com/building-a-real-time-prediction-pipeline-using-spark-structured-streaming-and-microservices-626dc20899eb