Hadoop上相同数据的完全独立的工作?

时间:2016-07-26 04:18:03

标签: hadoop machine-learning yarn hadoop-streaming

我需要针对机器学习问题优化一些超参数。这涉及在相同的输入数据上启动许多作业并保存它们的输出,完全相互独立。在我曾经使用的每个作业分发系统上,这是一个非常常见的用例,可以通过命令行上的几个开关和/或作业配置文件来处理。现在我在一个其作业分配系统是Hadoop / Yarn的集群上,我以前没用过它。尽管经常进行搜索,但在Hadoop上执行此操作的唯一方法似乎是将每次运行作为单独的工作提交。这会导致每次运行的作业提交开销,其中可能有1000次。有一个简单的方法吗?也许某种MR工作没有任何R? (顺便说一下,我的ML代码是用C ++编写的,所以我想我需要使用Hadoop Streaming。)如果必须的话我会学习Java,但对于这么简单的东西来说似乎是不成比例的努力。

0 个答案:

没有答案