我正在研究文档分类问题。我使用文档术语向量来表示每个文档。如果文档有一些术语,则该术语的矢量条目为1.
但是根据培训数据,我可以获得一些我认为可能有用的信息。它分别是每个类别中的术语流行度。它的定义如下:
受欢迎程度(T,X类)=(属于X的文件包含T)/(属于X的文件总数)
这是通过训练集计算的。
我认为这个值可以解释为某个类别的术语的可表示性,换句话说,就是术语在某个类别中的受欢迎程度。
我感觉它可能以某种方式影响一个术语的向量权重。但我还没有想出一个合理的方法来使用它。如果我想使用这个流行度值来分类新文档,我需要首先知道它的类别(或者我?)。这是一种两难的局面。
有人可以解决一些问题吗?这个值有助于分类吗?
答案 0 :(得分:0)
"可表示性"在NLP中被称为"文档频率"并且是术语加权的标准方式。更复杂(但仍然微不足道)的方法被称为" tf-idf"权重。它(在大多数情况下)是比你当前的单词表示更好的方法。