从目录中连接多个大文件会导致内存错误

时间:2017-06-22 10:12:28

标签: python pandas

我想从一个目录中连接50个txt文件,每个文件都有> 300 MB。下面的函数适用于其中两个文件,但不适用于所有文件。我对python很新,所以我不确定我的功能是否更快。我已经解决了类似的话题,但找不到更好的方法。你知道如何提高效率吗?

我的脚本连接文件:

def txtComponentstoOne(rdire):
    path=rdire
    allFiles=glob.glob(os.path.join(path,"*.txt"))
    df = pd.concat((pd.read_table(f, header=None, dtype={0:str,1:int,2:int,3:str, 4:str, 5: int, 6:int}) for f in allFiles),ignore_index=True)
    return df

我的总体目标是计算每行中第6列的中位数,其他列中的值相同。因此,如果你之前知道如何在不连接文件的情况下做到这一点,那么它也可以解决我的问题。

0 个答案:

没有答案