如何使用reuters-21578数据集与svm.net进行文本分类?

时间:2011-05-23 12:39:48

标签: nlp machine-learning svm document-classification

我刚刚开始申请文本分类,我已经阅读了很多关于这个主题的论文,但到目前为止我还不知道如何开始,我觉得我没有得到整个图像。我有训练数据集并阅读其描述并获得了SVM算法(SVM.Net)的一个很好的实现,但我不知道如何使用该实现的数据集。我知道我应该从数据集的文本中提取特征并使用这些特征作为SVM的输入,所以任何正文都可以告诉我有关如何提取文本特征并将其用作SVM算法的输入的详细教程,然后使用这个算法来分类一个新文本? 如果有一个关于使用SVM进行文本分类的完整示例,那就太棒了。

任何帮助将不胜感激。 提前谢谢。

1 个答案:

答案 0 :(得分:4)

创建文本分类功能可能会像您希望的那样复杂。

一种简单的方法是将每个不同的术语映射到特征索引。然后,您将每个文档表示为每个术语的频率向量。 (您可以删除停用词,重量术语等)。对于文本分类,您还可以为每个向量分配标签。

例如,如果文件是句子:

John loves Mary
带有“垃圾邮件”标签的

然后您可能会有以下映射:

John : 1
loves: 2
Mary: 3

然后你的矢量变为:

1 1 2 1 3 1

(我假设每个特征的权重为1)

我不了解SVM.NET,但大多数受监督的机器学习方法都会接受基于矢量的输入。