一个新的文件分类线索?

时间:2014-04-10 09:17:11

标签: machine-learning classification

我正在研究文档分类问题。我使用文档术语向量来表示每个文档。如果文档有一些术语,则该术语的矢量条目为1.

但是根据培训数据,我可以获得一些我认为可能有用的信息。它分别是每个类别中的术语流行度。它的定义如下:

受欢迎程度(T,X类)=(属于X的文件包含T)/(属于X的文件总数)

这是通过训练集计算的。

我认为这个值可以解释为某个类别的术语的可表示性,换句话说,就是术语在某个类别中的受欢迎程度。

我感觉它可能以某种方式影响一个术语的向量权重。但我还没有想出一个合理的方法来使用它。如果我想使用这个流行度值来分类新文档,我需要首先知道它的类别(或者我?)。这是一种两难的局面。

有人可以解决一些问题吗?这个值有助于分类吗?

1 个答案:

答案 0 :(得分:0)

"可表示性"在NLP中被称为"文档频率"并且是术语加权的标准方式。更复杂(但仍然微不足道)的方法被称为" tf-idf"权重。它(在大多数情况下)是比你当前的单词表示更好的方法。