Question

我刚刚开始申请文本分类，我已经阅读了很多关于这个主题的论文，但到目前为止我还不知道如何开始，我觉得我没有得到整个图像。我有训练数据集并阅读其描述并获得了SVM算法（SVM.Net）的一个很好的实现，但我不知道如何使用该实现的数据集。我知道我应该从数据集的文本中提取特征并使用这些特征作为SVM的输入，所以任何正文都可以告诉我有关如何提取文本特征并将其用作SVM算法的输入的详细教程，然后使用这个算法来分类一个新文本？如果有一个关于使用SVM进行文本分类的完整示例，那就太棒了。

任何帮助将不胜感激。提前谢谢。

Answer 1

创建文本分类功能可能会像您希望的那样复杂。

一种简单的方法是将每个不同的术语映射到特征索引。然后，您将每个文档表示为每个术语的频率向量。（您可以删除停用词，重量术语等）。对于文本分类，您还可以为每个向量分配标签。

例如，如果文件是句子：

John loves Mary

带有“垃圾邮件”标签的

。

然后您可能会有以下映射：

John : 1
loves: 2
Mary: 3

然后你的矢量变为：

1 1 2 1 3 1

（我假设每个特征的权重为1）

我不了解SVM.NET，但大多数受监督的机器学习方法都会接受基于矢量的输入。

如何使用reuters-21578数据集与svm.net进行文本分类？

1 个答案: