我有各种电子商务网站的评论数据集。
我的任务是将它们分类为垃圾邮件或不使用Python中的SVM。
如何将文本数据集转换为SVM功能?是否需要考虑其他功能,如果需要,如何将它们转换为SVM特征向量?
是否有可用于执行此任务的示例代码或教程?我需要实现这个任务,所以请指导我。
答案 0 :(得分:2)
将文本输入转换为输入的经典方法,您可以提供机器学习算法,如SVM:
因此,每个文档都由一个向量表示,其中每个组成部分是您的文本词汇集的一个单词,相关权重代表相对于所考虑文档的该单词的统计指标。
有关它的更多信息,请参阅scikit-learn http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction,以及将文本表示为机器学习算法的有效输入的最经典方法的实现。