我在天蓝色机器学习(.csv)中有一个数据集,在同一个数据集上我有多个模型构建,我想根据不同的列为每个模型的子集数据
输入:
ID col1 col2 col3
1 0 13 0
2 5 45 0
3 10 0 34
4 12 1 3
对于第一个模型,我想保留col1不等于None
的所有记录ID col1 col2 col3
2 5 45 0
3 10 0 34
4 12 1 3
类似于模型2
ID col1 col2 col3
1 0 13 0
2 5 45 0
4 12 1 3
希望很清楚
R中的等价物是
df[!df$col1 == "None",]
答案 0 :(得分:0)
不是完美的解决方案,但我们可以使用名为" Split Data"
的模块输入
ID col1 col2 col3
1 0 13 0
2 5 45 0
3 10 0 34
4 12 1 3
预期产出
ID col1 col2 col3
2 5 45 None
3 10 None 34
4 12 1 3
解决方案:
说明:
我使用了" MetaData编辑器"重命名' col1'到'标签'
模块"拆分数据"正在使用拆分模式作为'正则表达式
在正则表达式下,我们使用以下条件
\"Label" ^0
答案 1 :(得分:0)
您可以使用“执行R脚本”模块,只需在那里插入R代码。
df <- maml.mapInputPort(1)
df <- df[!df$col1 == "None",]
maml.mapOutputPort("df");