应用错误收集

如何在SVM中编码不同大小的特征向量

时间：2014-05-31 05:17:22

标签： machine-learning scikit-learn weka text-classification

我致力于对一些评论（段落）进行分类，这些评论由多个句子组成。我通过libSVM在Weka中使用词袋功能对它们进行了分类。但是，我有另一个想法，我不知道如何实现：

我认为在评论中为每个句子创建基于语法和浅层语义的特征是值得尝试的。但是，由于段落的句子大小不同，我找不到任何顺序编码这些功能的方法。我想将这些特征保持在一个顺序中的原因是句子特征的顺序可以为分类提供更好的线索。例如，如果我有两个实例P1（有3个句子）和P2个（2个句子），我会有一个这样的空格（假设每个句子都有一个二进制特征作为a或b）：

P1 - ＆gt; a b b / classX P2 - ＆gt; b a / classY

所以，我的问题是我是否可以在特征空间中实现不同特征尺寸的分类？如果是的话，我可以在Weka，scikit-learn或Mallet中使用任何类型的分类器吗？我很感激任何回复。

由于

3 个答案:

答案 0 :(得分：5)

无论实现如何，具有标准内核（线性，多边形，RBF）的SVM都需要固定长度的特征向量。您可以通过编码为布尔值来编码这些特征向量中的任何信息;例如收集语料库中出现的所有语法/语义特征，然后引入表示“在此文档中出现此类特征”的布尔值。如果捕获这些特征出现在多个句子中这一事实很重要，那么对它们进行计数并使用将频率放在特征向量中（但一定要按文档长度标准化频率，因为SVM不是尺度不变的。）

答案 1 :(得分：0)

如果您要对文本数据进行分类，我建议您查看“Rational Kernels”，它是在加权有限传感器上进行的，用于对自然语言文本进行分类。 Rational Kernel可以应用于不同长度的向量，并且已经作为开源项目（OpenFST）实现。

答案 2 :(得分：-2)

这是库的问题，因为SVM本身不需要固定长度的特征向量，它只需要一个内核函数，如果你能提供一个具有不同长度向量的内核函数，它应该可以用于SVM