我正在使用Weka在Text分类项目中工作,我有12个班级 我需要为每个类找到区分一个类与其他类的文本关键字, 所以我想独立制作每个类的特征向量(FV),并将12个(FV)存储在分开的12个arff文件中!
问题是 - >如何在一个特征向量中组合12个不同的特征向量?
答案 0 :(得分:0)
根据重叠与否的类别,我提出了两种不同的方法,而不是加入特征向量:
如果类没有重叠(也就是说,没有文档是两个或两个
在同一时间更多的课程),你宁愿建立一个单一的ARFF
文件,然后使用AttributeSelection
过滤器(Ranker
搜索,InfoGainAttributeEval
评估者建议)确定哪个
所有课程中的歧视最为明显。
如果课程重叠,你可以再建一个十二个 分类器,每个分类器都有自己的词汇表。你可以申请 属性选择也适用于每个独立问题,找到 最能区分单个班级和其他所有班级的功能。