如何将Pandas DataFrame转换为类似字节的对象

时间:2018-08-30 05:40:23

标签: excel pandas binary base64 bytesio

嗨,我正在尝试将df转换为二进制文件并将其存储在变量中。

my_df:

 df=pd.DataFrame({'A':[1,2,3],'B':[4,5,6]})

我的代码:

 import io
 towrite = io.BytesIO()
 df.to_excel(towrite)  # write to BytesIO buffer
 towrite.seek(0)  # reset pointer

我得到AttributeError: '_io.BytesIO' object has no attribute 'write_cells'

完整回溯:

AttributeError                            Traceback (most recent call last)
<ipython-input-25-be6ee9d9ede6> in <module>()
      1 towrite = io.BytesIO()
----> 2 df.to_excel(towrite)  # write to BytesIO buffer
      3 towrite.seek(0)  # reset pointer
      4 encoded = base64.b64encode(towrite.read())  #

C:\ProgramData\Anaconda3\lib\site-packages\pandas\core\frame.py in to_excel(self, excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow, startcol, engine, merge_cells, encoding, inf_rep, verbose, freeze_panes)
   1422         formatter.write(excel_writer, sheet_name=sheet_name, startrow=startrow,
   1423                         startcol=startcol, freeze_panes=freeze_panes,
-> 1424                         engine=engine)
   1425 
   1426     def to_stata(self, fname, convert_dates=None, write_index=True,

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\formats\excel.py in write(self, writer, sheet_name, startrow, startcol, freeze_panes, engine)
    624 
    625         formatted_cells = self.get_formatted_cells()
--> 626         writer.write_cells(formatted_cells, sheet_name,
    627                            startrow=startrow, startcol=startcol,
    628                            freeze_panes=freeze_panes)

AttributeError: '_io.BytesIO' object has no attribute 'write_cells'

2 个答案:

答案 0 :(得分:4)

我通过将熊猫升级到较新版本来解决了这个问题。

 import io
 towrite = io.BytesIO()
 df.to_excel(towrite)  # write to BytesIO buffer
 towrite.seek(0) 
 print(towrite)
 b''
 print(type(towrite))
 _io.BytesIO

如果要查看类似字节的对象,请使用getvalue

print(towrite.getvalue())
b'PK\x03\x04\x14\x00\x00\x00\x08\x00\x00\x00!\x00<\xb

答案 1 :(得分:3)

Pickle

Pickle是Pandas数据框的可复制格式,但仅供受信任用户内部使用。出于安全原因,它不用于与不受信任的用户共享。

import pickle

# Export:
my_bytes = pickle.dumps(df, protocol=4)

# Import:
df_restored = pickle.loads(my_bytes)

已使用Pandas 1.1.2进行了测试。不幸的是,这对于一个非常大的数据帧来说失败了,但是有效的方法是分别对每个列进行酸洗和并行压缩,然后酸洗此列表。或者,您可以腌制大型数据框的块。

CSV

如果必须使用CSV表示形式:

df.to_csv(index=False).encode()

请注意,使用CSV时会丢失各种数据类型。

实木复合地板

请参见this answer。请注意,使用实木复合地板时会转换各种数据类型。

Excel

在很大程度上避免使用它,因为它限制了max number of rows and columns