如何在scikit中使用SVC了解功能是否为文本摘要?

时间:2014-10-26 16:43:43

标签: python scikit-learn


我的问题是,如果数据集中有6个要素,如果某些要素是非数字的,我可以通过标签编码器或其他方法进行转换。但如果其中一个特征是一个巨大的文本体(一个段落),我应该使用哪些预处理技术来建模SVC或KNN分类器(而不是朴素贝叶斯)?
感谢。

1 个答案:

答案 0 :(得分:0)

您可以使用CountVectorizer或TfidfVectorizer,它们是文本特征提取的标准方法。您可以找到documentation herecomprehensive tutorial on working with text data here