有没有人尝试过使用Spark的python概率编程库?或者有人知道它会采取什么措施?
我有一种感觉,爱德华会是最简单的,因为已经有工具连接Tensorflow和Spark,但仍然对所需的低级代码更改感到朦胧。
我知道分布式MCMC仍然是一个活跃的研究领域(见MC-Stan on Spark?),这是否合理实施?谢谢!
答案 0 :(得分:0)
您可以将Tensorflow连接器与Edward一起使用,因为它基于Tensorflow,MCMC的主要缺点之一是计算量很大,您可以尝试对贝叶斯模型进行变分推断,以近似目标分布。 (我认为这也适用于Pyro和PyMC3),您也可以使用Tensorflow分布式tensorflow distributed
我还建议您使用/尝试一个名为“ Dask”的库 “ https://dask.pydata.org/en/latest/ Dask,您可以将模型从工作站扩展到具有Tensorflow连接器的集群。
希望这会有所帮助
答案 1 :(得分:0)
我见过人们在PySpark中运行Pyro + PyTorch,但用例仅基于CPU,并且不涉及分布式培训。