在文本分类案例的培训过程中,从process document
模块生成的词汇表长度约为15000个单词。另一方面,我应用了特征选择模块,即weight by information gain
和select by weight
来选择前500个特征。存储词列表和选定的权重。有没有办法将这个生成的500个权重应用于词表,并构建了与500个权重完全匹配的短词表。换句话说,我希望得到原始词汇表(大约15000个单词)和前500个功能(或基于前500个单词)的交集。
以下显示了我正在使用的脚本。存储的权重(用红色圈出)是两列,其中第一列是单词(属性),第二列是对应的权重值。基于此,我们可以选择前500或任何其他顶级功能。原始的词汇表(用红色圈出)可以有15000个单词,一个15000行的矩阵。
我的问题是如何根据排名的权重对象生成过滤的wordlist对象。
我已在Rapidminer forum上发布了此问题。请按照那里的更新。
答案 0 :(得分:0)
您应该发布代表流程。在没有它的情况下很难提供帮助,但我的观点是你可以采用500字的例子集并再次处理它来制作一个单词列表。