相当于Azure机器学习工作室中的子集

时间:2016-03-28 10:46:32

标签: azure-machine-learning-studio

我在天蓝色机器学习(.csv)中有一个数据集,在同一个数据集上我有多个模型构建,我想根据不同的列为每个模型的子集数据

输入:

ID col1 col2 col3
1  0    13   0
2  5    45   0
3  10   0    34
4  12   1    3

对于第一个模型,我想保留col1不等于None

的所有记录
ID col1 col2 col3
2  5    45   0
3  10   0    34
4  12   1    3

类似于模型2

ID col1 col2 col3
1  0    13   0
2  5    45   0
4  12   1    3

希望很清楚

R中的等价物是

df[!df$col1 == "None",] 

2 个答案:

答案 0 :(得分:0)

不是完美的解决方案,但我们可以使用名为" Split Data"

的模块

输入

ID col1 col2 col3
1  0    13   0
2  5    45   0
3  10   0    34
4  12   1    3

预期产出

ID col1 col2 col3
2  5    45   None
3  10   None 34
4  12   1    3

解决方案:

Azure Machine Learning Screenshot

说明:

我使用了" MetaData编辑器"重命名' col1'到'标签'

模块"拆分数据"正在使用拆分模式作为'正则表达式

在正则表达式下,我们使用以下条件

\"Label" ^0

答案 1 :(得分:0)

您可以使用“执行R脚本”模块,只需在那里插入R代码。

df <- maml.mapInputPort(1)
df <- df[!df$col1 == "None",] 
maml.mapOutputPort("df");