使用SVM查看垃圾邮件检测

时间:2015-01-02 11:07:33

标签: python svm spam-prevention sentiment-analysis review

我有各种电子商务网站的评论数据集。

我的任务是将它们分类为垃圾邮件或不使用Python中的SVM。

如何将文本数据集转换为SVM功能?是否需要考虑其他功能,如果需要,如何将它们转换为SVM特征向量?

是否有可用于执行此任务的示例代码或教程?我需要实现这个任务,所以请指导我。

1 个答案:

答案 0 :(得分:2)

将文本输入转换为输入的经典方法,您可以提供机器学习算法,如SVM:

  • 将您的文本划分为令牌列表(例如每个单词,每组2个单词等)
  • 根据给定的模型表示令牌的出现次数。例如,TFIDF是一个模型,它根据每个标记的频率将每个标记加权到整个文档集中。

因此,每个文档都由一个向量表示,其中每个组成部分是您的文本词汇集的一个单词,相关权重代表相对于所考虑文档的该单词的统计指标。

有关它的更多信息,请参阅scikit-learn http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction,以及将文本表示为机器学习算法的有效输入的最经典方法的实现。