应用错误收集

时间：2013-02-11 15:02:01

标签： classification document-classification tf-idf

我正在实施一个分类工具，正在尝试各种TF版本：两个对数（对数调用内/外的校正），标准化，增强和对数平均。显然，我的分类器精度存在显着差异 - 多达5％。然而，奇怪的是，我无法事先说出哪一个在给定数据集上表现更好。我想知道是否有一些我缺少的工作，或者，也许有人可以分享使用这些工作的经验？

答案 0 :(得分：2)

事先很难确定哪种加权方案最有效。总的来说，有no free lunch - 对一个数据集最有效的算法可能对另一个数据集来说很可怕。更重要的是，我们不是在谈论完全不同的选择。 TF-IDF体现了关于分类/检索的一种特定直觉，并且它的所有不同变体都是相同的。唯一的方法是试验

PS关于术语的说明：当您说重要时，您是否使用交叉验证或随机重新采样进行了任何统计显着性测试？可能是你所看到的差异是偶然的。

答案 1 :(得分：1)

基本上，通过在文档中添加给定术语来增加重要性应该随着术语的出现次数而减少。例如，在文档中出现两次的“汽车”意味着该术语比仅出现一次更重要。但是，如果将出现20次的术语与出现19的同一术语进行比较，则该差异应该更低。

通过指定不同的标准化，您正在做的是定义TF值在某一点饱和的速度。

您可以尝试将您的发现与某些有关每个文档的平均TF或类似指标的信息相关联。