我正在将训练和测试数据用作Google搜索摘要。
交易数据包含10,060个摘要。每行中的每个代码段以及每个代码段均由单词/术语列表以及末尾的类标签组成。
有 8 个类别标签:
Business,Computers,Culture-Arts,Entertainment,Education-Science,Engineering,Health,Politics-Society,Sports
以下是数据集中的一些行:
manufacture manufacturer directory directory china taiwan products manufacturers directory- taiwan china products manufacturer direcory exporter directory supplier directory suppliers business
empmag electronics manufacturing procurement homepage electronics manufacturing procurement magazine procrement power products production essentials data management business
dfma truecost paper true cost overseas manufacture product design costs manufacturing products china manufacturing redesigned product china save business
如您所见,数据应具有相同数量的维才能使用SVM。
我想用1表示单词是否出现在特定行中,否则用0表示,因此每一行都是0/1向量。但是,会有太多的尺寸。
我的问题:还有其他方法可以预处理数据以便有效执行SVM?
答案 0 :(得分:1)
在使用SVM执行文本分类之前,应检查术语权重和功能选择。
默认方法为:
检查tfc
术语权重。这是基于所谓的文档反向频率乘以术语频率(在当前文档中)。
检查基于Information Gain
的功能选择
在1.和2的基础上转换文档。
使用SVM执行文本分类。
我建议以下出版物以供进一步理解/阅读。在这些出版物中,您将找到研究社区中用于基于SVM的文本分类的典型方法: