我正在尝试训练分类器来对来自2个用户之间的聊天的文本进行分类,以后我可以预测这两个用户中谁更有可能说出X个句子/单词。为了达到目的,我从聊天记录中挖掘了文本,最后得到了两个单词数组UserA_words
和UserB_words
。
我需要以哪种格式转换此数组以将其传递给像naiveBayes或SVM这样的分类器?我如何通过,例如一袋单词代表分类器?
答案 0 :(得分:0)
您正在询问您应该使用哪种ML表示来进行聊天文本的用户分类。
词袋和词向量是文本处理中通常使用的主要表示。然而,聊天的用户分类不是通常的文本处理任务,我们寻找指示特定用户的指示性特征。 以下是一些: