应用错误收集

时间：2015-05-05 15:44:39

标签： machine-learning classification text-mining tf-idf feature-selection

我正在尝试进行文档分类。但我真的很困惑功能选择和tf-idf。它们是相同还是两种不同的分类方式？

希望有人可以告诉我？我不确定我的问题对你们有意义。

答案 0 :(得分：2)

是的，你很困惑。

它们都不是分类......它们是用于文本分类的流行，但它们更受信息检索的欢迎，而不是分类......

然而，许多分类器处理数字数据，因此常见的过程是1.提取特征（例如：TF）2。选择特征（例如删除停用词）3。权重特征（例如IDF）4。训练分类器得到的数值向量。 5.预测新/未标记文档的类别。

答案 1 :(得分：1)

在理解文本分类器时，查看this解释可能会有很大帮助。

TF-IDF是查找回答给定查询的文档的好方法，但它不一定为文档分配类。

可能有用的示例：

1）你有一堆文件，主题包括政治，经济学，计算机科学和艺术。属于每个主题的文档被分成每个主题的相应目录（您有一个标记的数据集）。现在，您收到了一个您不知道的主题的新文档。应该在哪个目录中存储？分类器可以从已标记的文档中回答此问题。

2）现在，您收到了有关计算机科学的问题。例如，您收到了查询＆＃34;找到文本相似性的好方法＆＃34;。计算机科学目录中的哪个文档可以提供对该查询的最佳响应？ TF-IDF将是一个很好的解决方法。

答案 2 :(得分：1)

因此，当您对文档进行分类时，您正在尝试决定文档是否是特定类的成员（例如，“关于鸟类”或“不关于鸟类”）。

分类器根据一组特征预测类的值。一组很好的功能将高度辨别 - 它们会告诉你很多文档是属于同一类还是其他类。

Tf-idf（术语频率逆文档频率）是一个特殊的特征，似乎是对文档分类任务的区别。还有其他一些，如字数（tf或术语频率）或正则表达式是否与文本匹配或是什么。

特征选择是选择好（辨别）特征的任务。 Tfidf可能是一个很好的选择。