谷歌云数据流和机器学习

时间:2015-10-13 21:10:48

标签: google-cloud-dataflow google-cloud-ml

在Google Cloud Dataflow上运行机器学习算法的最佳方法是什么?我可以想象,使用Mahout将是一种选择,因为它基于Java。

答案可能是否定的,但有没有办法调用基于脚本的R或Python(有很强的算法支持)来卸载ML执行?

-Girish

2 个答案:

答案 0 :(得分:1)

您已经可以在数据流转换方面实现许多算法。

一类可能不易实现的算法是迭代算法,其中管道的执行图取决于数据本身。简化迭代算法的实现是我们感兴趣的事情,您可以期待未来在这方面的改进和简化。

从Dataflow管道调用Python(或任何其他)可执行文件应该不难。例如,ParDo可以弹出并启动任意进程。例如,您可以使用--filesToStage管道选项将其他文件添加到Dataflow工作线程环境中。

答案 1 :(得分:0)

还有http://quickml.org/(未亲自使用)和Weka。我记得文档中提到可以在工作中启动一个新流程,但不建议使用AFAIK。