应用错误收集

时间：2016-10-23 21:27:18

标签： python machine-learning scikit-learn svm naivebayes

我正在尝试训练分类器来对来自2个用户之间的聊天的文本进行分类，以后我可以预测这两个用户中谁更有可能说出X个句子/单词。为了达到目的，我从聊天记录中挖掘了文本，最后得到了两个单词数组UserA_words和UserB_words。

我需要以哪种格式转换此数组以将其传递给像naiveBayes或SVM这样的分类器？我如何通过，例如一袋单词代表分类器？

答案 0 :(得分：0)

您正在询问您应该使用哪种ML表示来进行聊天文本的用户分类。

词袋和词向量是文本处理中通常使用的主要表示。然而，聊天的用户分类不是通常的文本处理任务，我们寻找指示特定用户的指示性特征。以下是一些：