提取单词顺序特征向量

时间:2016-04-29 08:10:59

标签: python machine-learning scikit-learn text-mining scikits

我正在尝试使用scikit-learn从我的数据集中提取特征向量,这是一组句子。根据我的理解,该库只允许提取词袋特征,如n-gram,并忽略单词的顺序。例如,以下代码提取三元组特征向量:

vectorizer = TfidfVectorizer(min_df=5,encoding="ISO-8859-1",ngram_range=(3,3))
x = vectorizer.fit_transform(sentences)

如何在不忽略单词顺序的情况下提取特征向量?

0 个答案:

没有答案