应用错误收集

在文本分类案例的培训过程中，从process document模块生成的词汇表长度约为15000个单词。另一方面，我应用了特征选择模块，即weight by information gain和select by weight来选择前500个特征。存储词列表和选定的权重。有没有办法将这个生成的500个权重应用于词表，并构建了与500个权重完全匹配的短词表。换句话说，我希望得到原始词汇表（大约15000个单词）和前500个功能（或基于前500个单词）的交集。

以下显示了我正在使用的脚本。存储的权重（用红色圈出）是两列，其中第一列是单词（属性），第二列是对应的权重值。基于此，我们可以选择前500或任何其他顶级功能。原始的词汇表（用红色圈出）可以有15000个单词，一个15000行的矩阵。

我的问题是如何根据排名的权重对象生成过滤的wordlist对象。

我已在Rapidminer forum上发布了此问题。请按照那里的更新。

基于权重

1 个答案: