我正在对我的文本语料库进行二元分析。我的特征向量是一组预定义的bigram和unigram标记。
特征向量 =(位置好,经验不好,干净,不友好,整洁,优秀,美丽的地方)
我的文字:位置很好但是不友好的员工。
清理文字位置好不友好的员工。
我使用上面的字典和清理文本创建了一个tdf但是“location good”bigram没有给出“1”。 但是,当我将清理过的文本更改为“位置不友好的员工”。 在二元组分析中,单词的顺序是重要的,为什么?还是我弄乱了代码?请澄清
“糟糕的经历”“整洁”“干净”“好位置”“优秀”“美丽”“地方”“不友好”
0 0 0 0 0 0 1 - 位置不错但不友好的员工。
0 0 0 1 0 0 1 - 位置不错但员工不友好。
答案 0 :(得分:1)
就我的经验而言,n-gram中的单词顺序至关重要。你不会想要考虑普通人攻击的n-gram。和#34;攻击普京"它们具有非常不同的语境意义。
所以不,你没有弄乱代码。您可能想要对n-gram模型进行更多的研究。一个良好的开端可能是Chapter 4 in Speech and Language Processing by Jurafsky and Martin