有哪些方法可以对文件进行分类?

时间:2015-05-05 15:44:39

标签: machine-learning classification text-mining tf-idf feature-selection

我正在尝试进行文档分类。但我真的很困惑功能选择和tf-idf。它们是相同还是两种不同的分类方式?

希望有人可以告诉我?我不确定我的问题对你们有意义。

3 个答案:

答案 0 :(得分:2)

是的,你很困惑。

  • 功能选择是选择功能(0或1)的抽象术语。删除删除词可以被视为功能选择。

  • TF是从文本中提取功能的一种方法:计算单词。

  • IDF是为权限分配权重的一种方法。

它们都不是分类......它们是用于文本分类的流行,但它们更受信息检索的欢迎,而不是分类......

然而,许多分类器处理数字数据,因此常见的过程是1.提取特征(例如:TF)2。选择特征(例如删除停用词)3。权重特征(例如IDF)4。训练分类器得到的数值向量。 5.预测新/未标记文档的类别。

答案 1 :(得分:1)

在理解文本分类器时,查看this解释可能会有很大帮助。

TF-IDF是查找回答给定查询的文档的好方法,但它不一定为文档分配类。

可能有用的示例:

1)你有一堆文件,主题包括政治,经济学,计算机科学和艺术。属于每个主题的文档被分成每个主题的相应目录(您有一个标记的数据集)。现在,您收到了一个您不知道的主题的新文档。应该在哪个目录中存储?分类器可以从已标记的文档中回答此问题。

2)现在,您收到了有关计算机科学的问题。例如,您收到了查询"找到文本相似性的好方法"。计算机科学目录中的哪个文档可以提供对该查询的最佳响应? TF-IDF将是一个很好的解决方法。

答案 2 :(得分:1)

因此,当您对文档进行分类时,您正在尝试决定文档是否是特定类的成员(例如,“关于鸟类”或“不关于鸟类”)。

分类器根据一组特征预测类的值。一组很好的功能将高度辨别 - 它们会告诉你很多文档是属于同一类还是其他类。

Tf-idf(术语频率逆文档频率)是一个特殊的特征,似乎是对文档分类任务的区别。还有其他一些,如字数(tf或术语频率)或正则表达式是否与文本匹配或是什么。

特征选择是选择好(辨别)特征的任务。 Tfidf可能是一个很好的选择。