我一直试图用Pandas读取一些大文本文件(大小约为1.4GB - 2GB),使用read_csv
函数,但没有用。以下是我使用的版本:
我尝试了以下内容:
df = pd.read_csv(data.txt')
它崩溃了Ipython并留言:Kernel died, restarting
。
然后我尝试使用迭代器:
tp = pd.read_csv('data.txt', iterator = True, chunksize=1000)
再次,我收到Kernel died, restarting
错误。
有什么想法吗?或者以其他方式阅读大文本文件?
谢谢!
答案 0 :(得分:6)
在发布此问题后的某个时间,here给出了类似问题的解决方案。基本上,它建议通过执行以下操作来阅读chunks
中的文件:
chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)
您应该根据机器的功能指定chunksize
参数(即,确保它可以处理块)。