我正在使用python解决机器学习问题。我在机器学习方面的知识并不多。问题在于训练数据集。训练数据集包括文本样本和这些文本样本的标签。给出了所有可能的标签值。所以这是监督问题。有些文字样本没有空标签。现在我必须建立一个模型来查找给定文本数据的标签。
我所做的是,我从训练数据中创建了pandas数据帧。 Dataframe的列为[text_data, label1, label2, label3, ..., labeln]
。标签列的值为0或1.然后我清理并标记化text_data。我从令牌中删除了停用词。我使用PorterStemmer
来阻止令牌。我将数据帧拆分为训练数据和验证数据,如80:20。现在尝试通过使用训练数据预测验证数据的标签来制作一些模型。但我在这里非常困惑如何制作模型。我尝试了一些像Naive Bayes Classifier
这样的东西,但它没有用,或者我做错了。知道我现在该怎么办吗?