Question

我正在尝试从7 csv创建一个数据矩阵，以找出文件中的常用词。

import pandas as pd

df1 = pd.read_csv('A.csv', sep=";", index_col=None, header=None)
df2 = pd.read_csv('B.csv', sep=";", index_col=None, header=None)
df3 = pd.read_csv('C.csv', sep=";", index_col=None, header=None)
df4 = pd.read_csv('D.csv', sep=";", index_col=None, header=None)
df5 = pd.read_csv('E.csv', sep=";", index_col=None, header=None)
df6 = pd.read_csv('F.csv', sep=";", index_col=None, header=None)
df7 = pd.read_csv('G.csv', sep=";", index_col=None, header=None)

df = pd.concat([df1,df2,df3,df4,df5,df6,df7], keys=['A','B','C','D','E','F','G'])
df.reset_index(1, drop=True, inplace=True)

res = df.stack().reset_index(1, drop=True)
val = res.str.get_dummies().groupby(level=0).sum().T

val.to_csv('result.csv')

如果我使用2-3 csv这个代码工作正常但是当我使用所有7 csv时，单词列表超过60000并且get_dummies（）抛出内存错误，我的系统被挂起并且我需要重新启动系统。有没有办法解决这个问题。

get_dummies（）抛出内存错误

0 个答案: