标签: python machine-learning scikit-learn text-mining scikits
我正在尝试使用scikit-learn从我的数据集中提取特征向量,这是一组句子。根据我的理解,该库只允许提取词袋特征,如n-gram,并忽略单词的顺序。例如,以下代码提取三元组特征向量:
vectorizer = TfidfVectorizer(min_df=5,encoding="ISO-8859-1",ngram_range=(3,3)) x = vectorizer.fit_transform(sentences)
如何在不忽略单词顺序的情况下提取特征向量?