我刚刚开始申请文本分类,我已经阅读了很多关于这个主题的论文,但到目前为止我还不知道如何开始,我觉得我没有得到整个图像。我有训练数据集并阅读其描述并获得了SVM算法(SVM.Net)的一个很好的实现,但我不知道如何使用该实现的数据集。我知道我应该从数据集的文本中提取特征并使用这些特征作为SVM的输入,所以任何正文都可以告诉我有关如何提取文本特征并将其用作SVM算法的输入的详细教程,然后使用这个算法来分类一个新文本? 如果有一个关于使用SVM进行文本分类的完整示例,那就太棒了。
任何帮助将不胜感激。 提前谢谢。
答案 0 :(得分:4)
创建文本分类功能可能会像您希望的那样复杂。
一种简单的方法是将每个不同的术语映射到特征索引。然后,您将每个文档表示为每个术语的频率向量。 (您可以删除停用词,重量术语等)。对于文本分类,您还可以为每个向量分配标签。
例如,如果文件是句子:
John loves Mary
带有“垃圾邮件”标签的。
然后您可能会有以下映射:
John : 1
loves: 2
Mary: 3
然后你的矢量变为:
1 1 2 1 3 1
(我假设每个特征的权重为1)
我不了解SVM.NET,但大多数受监督的机器学习方法都会接受基于矢量的输入。