如何根据监督场景的多个特征的相关性进行分类

时间:2017-07-28 05:58:59

标签: machine-learning classification correlation

我有2个功能:'Contact_Last_Name'和'Account_Last_Name',我想根据这些功能对数据进行分类: 逻辑是,如果2个特征相同,即Contact_Last_Name与Account_Last_Name相同 - 则结果为“成功”,否则为“拒绝”。 所以。例如:如果Contact_Last_Name是'Johnson'而Account_Last_Name是'Eigen' - 结果被归类为'拒绝'。如果两者都是平等的说 - '爱迪生' - 那么结果就是'成功'。 如何,我可以为这组数据分类算法? [请注意,通常我们会丢弃高关联列,但在此处列之间的相关性似乎具有分类逻辑]

我曾尝试在R中使用决策树(C5.0)和朴素贝叶斯(naiveBayes),但这两种方法都无法正确对数据集进行分类。

1 个答案:

答案 0 :(得分:0)

首先,它不是机器学习的一个很好的用例,因为这可以通过字符串匹配完成,但如果你想给分类算法,那么创建一个值为'Contact_Last_Name'和'的表Account_Last_Name'和'Result'并将其提供给决策树并预测第三列。

请注意,您需要对数据进行分区以进行培训和测试。