应用错误收集

我想为分类问题实施ML模型。我的csv数据如下所示：

方法1;方法2;方法3;方法4;类别;类
RESULT1;结果2; result3; result4;运动; 12个
...
...

所有方法，给出一个文本。有时它是一个单词，有时更多，有时单元格是空的（这种方法没有答案）。列“类别”始终具有文本，列“类”是显示具有正确答案的方法的数字的数字（即，数字12表示仅来自方法1和2的结果是正确的）。如有必要，可能会添加更多列。

现在，我希望将所有方法的新答案归类为其中一个类。

我应该如何准备这些数据？我知道我应该有一个数字数据，但是如何做到这一点，并处理所有空单元格，每个答案中的单词数量不一致？

我应该如何准备这些数据？我知道我应该有一个数字数据，但是如何做到这一点，并处理所有空单元格，每个答案中的单词数量不一致？

有许多不同的方法可以做到这一点，但最简单的方法是使用Bag of Words表示，这意味着连接所有Methodx列并计算每个单词出现的次数它们。

使用它，你有一个矢量表示（每个单词是一个列/特征，每个计数都是一个数值）。

现在，从这里出现了几个问题（主要问题是数据集中的列/要素数量会非常大），因此您可能需要进一步预处理数据或找到可以处理的ML技术随它为你。但是，在任何情况下，我都会建议您尝试查看有关NLP的几个教程，以便更好地了解这一点并更好地估算出数据集的最佳解决方案。