应用错误收集

CountVectorizer将为您提取三元组（使用ngram_range=(3, 3)）。 text feature extraction documentation介绍了这一点。然后，只需使用与变换后的特征矩阵完全相同的MultinomialNB。

请注意，这实际上是建模：

P（文件|标签）= P（字_X，字_X-1，字_X-2 |标签）* P （word _X-1，word _X-2，word _X-3 | label）* ...

有多不同？那么，第一个术语可以写成

P（word _X，word _X-1，word _X-2 | label）= P（word _{X < / sub> | word _X-1，word _X-2，label）* P（word _X-1，word _{X -2} | label）}

当然，所有其他条款也可以这样写，所以你最终会（为了简洁起见，在标签上删除下标和条件）：

P（X | X-1，X-2）P（X-1 | X-2，X-3）... P（3 | 2,1）P（X-1，X-2） P（X-2，X-3）...... P（2,1）

现在，P（X-1，X-2）可写为P（X-1 | X-2）P（X-2）。因此，如果我们为所有这些条款执行此操作，我们就

P（X | X-1，X-2）P（X-1 | X-2，X-3）... P（3 | 2,1）P（X-1 | X-2） P（X-2 | X-3）... P（2 | 1）P（X-2）P（X-1）... P（1）

所以这实际上就像使用三元组，双字母组和非语音组（虽然不直接估计二元语法/单语格式）。