我正在尝试使用SVM来解决文本分类问题。我发现了一个名为SVM light的SVM实现及其衍生的SVM多类(用于超过2个类的分类问题)。但是我真的无法理解用于训练和测试分类器的文件格式。我知道我需要创建一个特征向量(让我们假设我将文档中的每个单词作为一个特征),然后对于每个文档我必须指定它的类,它包含的特征(实际上是特征的索引)特征向量)和创建训练文件的特征值。我对这个'特征值'感到困惑。它可能是什么?它是本文档中该功能的计数吗?或者是别的什么?网站包含的示例列车文件没有整数作为特征值,表明它不是形成特征值的频率
此外,我想知道是否有一些工具/软件可以从一个简单的文档创建这个列车文件。我通常使用Java;所以Java中的一些包对我来说也足够好了。我尝试搜索Google但找不到任何相关内容。
我还想知道是否还有其他更好的方法可以使用SVM进行文本分类。
非常感谢这方面的任何帮助。
答案 0 :(得分:2)
可以使用简单的二进制功能(这个词出现与否?)或简单计数。但是你可能想要通过计数的对数来缩放简单计数(更频繁的单词更重要,但是出现10x的单词不比出现一次的单词重10倍)。
此外,您可以通过考虑所有文档中出现的单词的频率等来计算计数(即使单词the
在文档中经常出现,但它并没有真正说明该文档它一般非常频繁)。请查看tf-idf。
SVM是正确的选择吗?我会说找到正确的功能比确切的算法更重要,特别是在早期阶段。