为什么pandas.to_csv比xlsx制作更大的文件

时间:2019-11-22 01:42:21

标签: python pandas

我的代码当前从我们的服务器上获取一些工作簿,并将它们复制到另一个位置,在那里我让熊猫读取每个文件(100个工作簿),过滤掉特定的列,然后将过滤后的数据输出为.csv。运行100个工作簿(全部大约8mb)并输出一个csv(全部10mb)需要788秒。我只是想知道为什么带有更少行的过滤工作簿数据会成为更大的工作簿?

xlsx和csv之间的数据集差异约为220,000行中的2000行。

这是代码;

def csvofnoline(homedir):
    for filename in os.listdir(homedir):
        if filename.endswith(".xlsx"):
            fName = os.path.join(homedir,'\',filename)
            fBase = os.path.basename(fName)
            fRaw = os.path.splitext(fBase)[0]
            df = pd.read_excel(fName, index = False)
            df.reset_index(drop=True, inplace=True)
            dfblanks = df[pd.isnull(df['Data Line'])] 
            dfblanks.to_csv(path_or_buf=os.path.join(homedir,'\',fRaw,"_NLA_.csv"), header = True, index = False)

1 个答案:

答案 0 :(得分:1)

let str = "Hello, playground" print(str.toHexEncodedString()) // 48656C6C6F2C20706C617967726F756E64 print(str.toHexEncodedString(uppercase: false, prefix: "0x", separator: " ")) // 0x48 0x65 0x6c 0x6c 0x6f 0x2c 0x20 0x70 0x6c 0x61 0x79 0x67 0x72 0x6f 0x75 0x6e 0x64 是压缩(压缩)格式。