假设我有一个.dat
文件filename.dat
,我希望将其读入Pandas Dataframe:
import pandas as pd
df = pd.read_table('filename.dat')
这是否有尺寸限制?我希望单独为一个大小为1 TB的文件保存数据帧的列。这可能吗?
答案 0 :(得分:1)
为了扩展评论中提到的chunksize
的使用情况,我会执行以下操作:
chunks = pd.read_table('filename.dat', chunksize=10**5)
fileout = 'filname_{}.dat'
for i, chunk in enumerate(chunks):
mode = 'w' if i == 0 else 'a'
header = i == 0
for col in chunk.columns:
chunk[col].to_csv(fileout.format(col), index=False, header=header, mode=mode)
您可能希望尝试使用chunksize
参数来查看对您的数据最有效的内容。
我使用enumerate
的原因是在读入第一个块时创建一个带有标题的新文件,并且在没有标题的情况下附加后续块。