基于权重

时间:2016-09-06 00:07:08

标签: rapidminer

在文本分类案例的培训过程中,从process document模块生成的词汇表长度约为15000个单词。另一方面,我应用了特征选择模块,即weight by information gainselect by weight来选择前500个特征。存储词列表和选定的权重。有没有办法将这个生成的500个权重应用于词表,并构建了与500个权重完全匹配的短词表。换句话说,我希望得到原始词汇表(大约15000个单词)和前500个功能(或基于前500个单词)的交集。

以下显示了我正在使用的脚本。存储的权重(用红色圈出)是两列,其中第一列是单词(属性),第二列是对应的权重值。基于此,我们可以选择前500或任何其他顶级功能。原始的词汇表(用红色圈出)可以有15000个单词,一个15000行的矩阵。

我的问题是如何根据排名的权重对象生成过滤的wordlist对象。

我已在Rapidminer forum上发布了此问题。请按照那里的更新。

1 个答案:

答案 0 :(得分:0)

您应该发布代表流程。在没有它的情况下很难提供帮助,但我的观点是你可以采用500字的例子集并再次处理它来制作一个单词列表。