应用错误收集

我正在研究文档分类问题。我使用文档术语向量来表示每个文档。如果文档有一些术语，则该术语的矢量条目为1.

但是根据培训数据，我可以获得一些我认为可能有用的信息。它分别是每个类别中的术语流行度。它的定义如下：

受欢迎程度（T，X类）=（属于X的文件包含T）/（属于X的文件总数）

这是通过训练集计算的。

我认为这个值可以解释为某个类别的术语的可表示性，换句话说，就是术语在某个类别中的受欢迎程度。

我感觉它可能以某种方式影响一个术语的向量权重。但我还没有想出一个合理的方法来使用它。如果我想使用这个流行度值来分类新文档，我需要首先知道它的类别（或者我？）。这是一种两难的局面。

有人可以解决一些问题吗？这个值有助于分类吗？