如何使用sklearn.feature_extraction.text.CountVectorizer迭代提取特征?

时间:2018-01-25 03:44:06

标签: python-3.x scikit-learn nlp

我有一个包含许多文本数据的sqlite3数据库。我想提取文本并使用' CountVectorizer '或' HashingVectorizer '将它们转换为术语 - 频率矩阵。我能想到的方法是使用'sqlite3。 .cursor'的' fetchall'函数。

问题是数据集太大了。我想知道是否有一种方法可以提取特征并迭代转换为矩阵?

# extract text data using 'fetchall'
conn=sqlite3.connect('text.db')
c=conn.cursor()
c_exe=c.execute("SELECT * FROM table")
text_tuple=c_exe.fetchall()
text=[item[0] for item in text_tuple]

# convert the text into tf-matrix
vectorizer=CountVectorizer()
Y=vectorizer.fit_transform(text)

# if there's a way to do it iteratively, e.g. 'modified_vectorizer'
for text in c_exe:
    Y=modified_vectorizer() 

0 个答案:

没有答案