我正在尝试从7 csv创建一个数据矩阵,以找出文件中的常用词。
import pandas as pd
df1 = pd.read_csv('A.csv', sep=";", index_col=None, header=None)
df2 = pd.read_csv('B.csv', sep=";", index_col=None, header=None)
df3 = pd.read_csv('C.csv', sep=";", index_col=None, header=None)
df4 = pd.read_csv('D.csv', sep=";", index_col=None, header=None)
df5 = pd.read_csv('E.csv', sep=";", index_col=None, header=None)
df6 = pd.read_csv('F.csv', sep=";", index_col=None, header=None)
df7 = pd.read_csv('G.csv', sep=";", index_col=None, header=None)
df = pd.concat([df1,df2,df3,df4,df5,df6,df7], keys=['A','B','C','D','E','F','G'])
df.reset_index(1, drop=True, inplace=True)
res = df.stack().reset_index(1, drop=True)
val = res.str.get_dummies().groupby(level=0).sum().T
val.to_csv('result.csv')
如果我使用2-3 csv这个代码工作正常但是当我使用所有7 csv时,单词列表超过60000并且get_dummies()抛出内存错误,我的系统被挂起并且我需要重新启动系统。有没有办法解决这个问题。