我应该使用什么样的聊天文本数据进行用户分类?

时间:2016-10-23 21:27:18

标签: python machine-learning scikit-learn svm naivebayes

我正在尝试训练分类器来对来自2个用户之间的聊天的文本进行分类,以后我可以预测这两个用户中谁更有可能说出X个句子/单词。为了达到目的,我从聊天记录中挖掘了文本,最后得到了两个单词数组UserA_wordsUserB_words

我需要以哪种格式转换此数组以将其传递给像naiveBayes或SVM这样的分类器?我如何通过,例如一袋单词代表分类器?

1 个答案:

答案 0 :(得分:0)

您正在询问您应该使用哪种ML表示来进行聊天文本的用户分类。

词袋和词向量是文本处理中通常使用的主要表示。然而,聊天的用户分类不是通常的文本处理任务,我们寻找指示特定用户的指示性特征。 以下是一些:

  • 每个评论的字符长度,字长,句子长度
  • 打字速度(特别是如果你有时间戳,以秒为单位)
  • 标点符号的比率(例如,80个字符中的17个标点符号= 17/80)
  • 资本化比率
  • 数字比率
  • 空白比率
  • 字符n-gram(注意这些可以选择 l0ser,f ## k,: - )
  • 使用Unicode(表情符号,符号,例如星星)
  • 特定标点符号的比例(例如,多少'。','!','?','*','#')
  • 字数,尤指任何统计上异常的事情
  • 您可以想到的任何其他可能对这两个用户具有预测性的内容,例如:每个拼写错误的单词数量(可能是实际的拼写错误,或来自手机预测刷卡)