应用错误收集

是的，您可以使用哈希映射实现此功能，但是根据功能的数量和内存要求，它可能不是最佳或最快的数据结构，它实际上取决于您的域。通常，表示存在与否的特征将产生不良结果。更好的方法是在对特征进行加权时使用TF-IDF。

您正在谈论的方法是“词袋”方法。您可以在此处基于单词边界对文档进行标记，并将单词用作要素。作为第一遍，您应该删除停用词（即“a”，“和”，“the”），然后规范化您的数据（即Now == now == nOw）。然后，您可以执行词干，以进一步减少矢量大小。

现在低估一下提取功能的一个好方法是查看MALLET。我有一个非常简单的朴素贝叶斯实现与RCV-1的解析器，你可以看一个例子Naive Bayes