我有一个包含大量大型csv文件的目录,每个文件的格式均相同。每个文件太大,无法导入到内存中。
我的问题是pandas.read_csv()
一次只允许我读取一个文件,我希望pandas.read_csv()
将目录中的所有文件都视为一个大文件(这意味着我希望熊猫对待它们,就好像文件是端到端加入的一样。我这样做是为了可以无缝地从文件中逐块读取。我怎样才能最有效地做到这一点?由于文件太大,因此性能非常重要。
编辑:我想阅读被视为一个文件,因为每个块必须具有相同的大小,并且还可以被所有文件的总大小(而不是单个文件的大小)整除