我有一个用例,我有一个流媒体作业正在运行从kafka队列获取输入数据。我有一百万行的参考数据,每小时更新一次。我在驱动程序中加载参考数据,然后将其广播给工作人员。我想更新这个广播变量(在驱动程序中)并将其重新发送给工作人员。
如果没有引入hbase / redis / cassandra等,在spark中执行此操作的最佳方法是什么?
这有多可靠?
如果需要更多信息,请告诉我。先感谢您。 =)
答案 0 :(得分:2)
稍后在这里回答类似的问题:How can I update a broadcast variable in spark streaming?
简而言之,您需要:" unpersist"广播变量,更新和重播。
PS。正式地说,这个问题并不重复,因为它是早先发布的。