应用错误收集

你没有。

术语频率逆文档频率是一种为要素指定数值的方法。它（大多数）独立于对数据点进行分类的方法。

我假设相似性你的意思是余弦相似度＆amp;最近邻分类。

如果您正在进行分类，您可以选择哪种方法可以提供最佳准确度（或最符合您的要求）。在存在非常大的数据集的情况下，计算数据集中每个文档的余弦相似性将变得令人望而却步。

如果你认为余弦相似性排名结果（找到类似于Q的文档），那么就没有“选择”。这是一个排名任务，天真的贝叶斯是分类。

在现实生活中，两种方法都不是特别好。你只会用它们来初步了解一个任务可能是多么艰难/容易，扔掉哑巴和笨蛋。简单的方法。如果一个“哑”方法的表现明显优于其他方法，您可以考虑尝试与最佳哑方法相关的更高级模型。