如何从Spark获得计算结果?

时间:2017-03-25 09:44:57

标签: apache-spark spark-streaming

我正在学习Spark并尝试构建一个简单的服务,该服务应该从Spark获得计算结果并将其返回给用户。 Spark网站上有很多关于如何处理流数据的好例子。但我找不到任何关于如何从中检索计算结果的文档。

例如我有一个Kafka队列和一个Spark作业like来统计单词。如何向最终用户显示结果?理想情况下,我希望提供一个服务于/words-count HTTP端点的宁静服务。但是如何从该服务调用Spark还不清楚。

对文档或代码示例的任何引用都会很棒。谢谢。

1 个答案:

答案 0 :(得分:1)

通常,如果您希望在用户可用时不断将结果推送给用户,您可能希望使用流API。有一个foreachRDD,您可以在其中提供一个获取RDD并发布其结果的函数。每次流更新结果时都会调用该函数。

dstream.foreachRDD(rdd => publish(rdd))