如何管理多个数据集-机器学习Azure

时间:2019-04-10 20:26:07

标签: azure-machine-learning-studio data-transform

是否有任何模块可以接受多个数据集进行处理? 例如,“拆分数据”,“编辑元数据”和“选择数据集中的列”不接受多个数据集作为输入。

这就是我所做的: 我的模型中有几个数字变量和分类变量。我使用“转换为指标变量”模块为数据创建了虚拟变量。如何将指标变量和数值变量包含到一个数据集中,以便可以为模型拆分数据?

到目前为止,我正在使用Python进行数据整理,并在Azure MLS中移动数据集以进行建模。理想情况下,我需要在Azure MLS中处理数据。

我希望有一个模块可以合并Azure MLS中的分类装箱变量和数字变量

2 个答案:

答案 0 :(得分:0)

是的,有几个模块可以接收多个数据集-Add ColumnsApply SQL TransformationExecute Python Script,仅举几个例子。

虽然不确定为什么需要它们作为指标值-假设您正在谈论培训/测试拆分,那么我将在调用“转换为指标值”模块后拆分数据。

答案 1 :(得分:0)

我将添加到上面的答案。如果数据集具有公共键,则也可以使用Execute R脚本和Join data。