我想为分类问题实施ML模型。我的csv数据如下所示:
方法1;方法2;方法3;方法4;类别;类
RESULT1;结果2; result3; result4;运动; 12个
...
...
所有方法,给出一个文本。有时它是一个单词,有时更多,有时单元格是空的(这种方法没有答案)。列“类别”始终具有文本,列“类”是显示具有正确答案的方法的数字的数字(即,数字12表示仅来自方法1和2的结果是正确的)。如有必要,可能会添加更多列。
现在,我希望将所有方法的新答案归类为其中一个类。
我应该如何准备这些数据?我知道我应该有一个数字数据,但是如何做到这一点,并处理所有空单元格,每个答案中的单词数量不一致?
答案 0 :(得分:0)
我应该如何准备这些数据?我知道我应该有一个数字数据,但是如何做到这一点,并处理所有空单元格,每个答案中的单词数量不一致?
有许多不同的方法可以做到这一点,但最简单的方法是使用Bag of Words表示,这意味着连接所有Methodx
列并计算每个单词出现的次数它们。
使用它,你有一个矢量表示(每个单词是一个列/特征,每个计数都是一个数值)。
现在,从这里出现了几个问题(主要问题是数据集中的列/要素数量会非常大),因此您可能需要进一步预处理数据或找到可以处理的ML技术随它为你。但是,在任何情况下,我都会建议您尝试查看有关NLP的几个教程,以便更好地了解这一点并更好地估算出数据集的最佳解决方案。