我的问题是,如果数据集中有6个要素,如果某些要素是非数字的,我可以通过标签编码器或其他方法进行转换。但如果其中一个特征是一个巨大的文本体(一个段落),我应该使用哪些预处理技术来建模SVC或KNN分类器(而不是朴素贝叶斯)?
感谢。
答案 0 :(得分:0)
您可以使用CountVectorizer或TfidfVectorizer,它们是文本特征提取的标准方法。您可以找到documentation here和comprehensive tutorial on working with text data here。