如何在tf-idf文档相似度和朴素贝叶斯分类器之间进行选择。我不明白使用哪一个,有什么方法可以确定哪种算法有什么用途?
答案 0 :(得分:3)
你没有。
术语频率逆文档频率是一种为要素指定数值的方法。它(大多数)独立于对数据点进行分类的方法。
我假设相似性你的意思是余弦相似度&最近邻分类。
如果您正在进行分类,您可以选择哪种方法可以提供最佳准确度(或最符合您的要求)。在存在非常大的数据集的情况下,计算数据集中每个文档的余弦相似性将变得令人望而却步。
如果你认为余弦相似性排名结果(找到类似于Q的文档),那么就没有“选择”。这是一个排名任务,天真的贝叶斯是分类。
在现实生活中,两种方法都不是特别好。你只会用它们来初步了解一个任务可能是多么艰难/容易,扔掉哑巴和笨蛋。简单的方法。如果一个“哑”方法的表现明显优于其他方法,您可以考虑尝试与最佳哑方法相关的更高级模型。