我的目标是运行Spark Streaming实例集群,使用一些简单的算法处理数据。例如,首先是
def updateFunction(newValues, runningCount):
if runningCount is None:
runningCount = 0
return sum(newValues, runningCount)
# Produces two tuples from each one, and sums its values. Then orders the result.
digest = ks.flatMap(producePerAorB)\
.updateStateByKey(updateFunction)\
.transform(lambda rdd: rdd.sortBy(lambda x: x[1], ascending=False))
将Kafka插入Spark群集时,我遇到了很多性能问题。
我的设置说明:
观察性能,特别是那些错误,我想我做的事情非常糟糕。在推测出错误的情节后,我有点想法了。我希望Spark和Kafka更容易设置!
任何指针都将不胜感激 谢谢