应用错误收集

如何使用sklearn.feature_extraction.text.CountVectorizer迭代提取特征？

时间：2018-01-25 03:44:06

标签： python-3.x scikit-learn nlp

我有一个包含许多文本数据的sqlite3数据库。我想提取文本并使用' CountVectorizer '或' HashingVectorizer '将它们转换为术语 - 频率矩阵。我能想到的方法是使用'sqlite3。 .cursor'的' fetchall'函数。

问题是数据集太大了。我想知道是否有一种方法可以提取特征并迭代转换为矩阵？

# extract text data using 'fetchall' conn=sqlite3.connect('text.db') c=conn.cursor() c_exe=c.execute("SELECT * FROM table") text_tuple=c_exe.fetchall() text=[item[0] for item in text_tuple] # convert the text into tf-matrix vectorizer=CountVectorizer() Y=vectorizer.fit_transform(text) # if there's a way to do it iteratively, e.g. 'modified_vectorizer' for text in c_exe: Y=modified_vectorizer()

0 个答案:

没有答案

相关问题

如何使用Xcode Extract重构功能？

熊猫：迭代地从DataFrame中提取Numpy数组

迭代地使用DocumentFilter

如何从QImage中提取特征？

如何在Keras中使用CNN时提取图像的特征向量

如何使用sklearn.feature_extraction.text.CountVectorizer迭代提取特征？

提取特征向量

使用word2vec提取段落的主要特征

如何在Sparklyr中提取要素重要性？

使用遗传算法的Carets特征选择：如何提取结果？

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？