apache-spark - 如何在流用例中更新大型广播变量？ - Thinbug

如何在流用例中更新大型广播变量？

时间：2015-09-23 00:52:03

标签： apache-spark

我有一个用例，我有一个流媒体作业正在运行从kafka队列获取输入数据。我有一百万行的参考数据，每小时更新一次。我在驱动程序中加载参考数据，然后将其广播给工作人员。我想更新这个广播变量（在驱动程序中）并将其重新发送给工作人员。

如果没有引入hbase / redis / cassandra等，在spark中执行此操作的最佳方法是什么？

这有多可靠？

如果需要更多信息，请告诉我。先感谢您。 =）

1 个答案:

答案 0 :(得分：2)

稍后在这里回答类似的问题：How can I update a broadcast variable in spark streaming?

简而言之，您需要：＆＃34; unpersist＆＃34;广播变量，更新和重播。

PS。正式地说，这个问题并不重复，因为它是早先发布的。