我有一个包含许多文本数据的sqlite3数据库。我想提取文本并使用' CountVectorizer '或' HashingVectorizer '将它们转换为术语 - 频率矩阵。我能想到的方法是使用'sqlite3。 .cursor'的' fetchall'函数。
问题是数据集太大了。我想知道是否有一种方法可以提取特征并迭代转换为矩阵?
# extract text data using 'fetchall'
conn=sqlite3.connect('text.db')
c=conn.cursor()
c_exe=c.execute("SELECT * FROM table")
text_tuple=c_exe.fetchall()
text=[item[0] for item in text_tuple]
# convert the text into tf-matrix
vectorizer=CountVectorizer()
Y=vectorizer.fit_transform(text)
# if there's a way to do it iteratively, e.g. 'modified_vectorizer'
for text in c_exe:
Y=modified_vectorizer()