我有一个非常宽的数据框(20,000列),主要由Pandas中的float64列组成。我想将这些列转换为float32并写入Parquet格式。之所以这样做,是因为这些文件的下载对象是内存有限的小型容器。
我目前在Pandas中进行投射,但是在广泛的数据集上这非常慢,然后将其写到拼花地板上。在执行write_parquet进程本身时是否可以转换类型?一个伪示例如下所示。
import pandas as pd
import numpy as np
import pyarrow
df = pd.DataFrame(np.random.randn(3000, 15000)) # make dummy data set
df.columns = [str(x) for x in list(df)] # make column names string for parquet
df[list(df.loc[:, df.dtypes == float])] = df[list(df.loc[:, df.dtypes == float])].astype('float32') # cast the data
df.to_parquet("myfile.parquet") # write out the df
答案 0 :(得分:0)
尝试使用箭头代替熊猫来进行向下投射:
def convert_arrow(df):
table = pa.Table.from_pandas(df)
columns = [
c.cast(pa.float32()) if c.type == pa.float64() else c
for c in table
]
return pa.Table.from_arrays(columns, table.column_names)
我做了一个简单的基准测试,速度快了20倍。
我认为您代码的问题是在现有DataFrmae中一一分配列,这效率不高。这篇博客文章对此进行了很好的解释:https://uwekorn.com/2020/05/24/the-one-pandas-internal.html
另一个不涉及箭头的简单解决方案是转换每列并在最后创建数据框。下面的代码比箭头版本慢一点:
def convert_pandas_by_columns(df):
columns = [
df[c].astype('float32') if df[c].dtype == float else df[c]
for c in df.columns
]
return pd.DataFrame(columns)
答案 1 :(得分:0)
使用pandas 1.0.x和pyarrow 0.15+,可以使用从schema parameter获取的模式定义,在to_parquet中传递this post,如下所示。输入用于schema definition的pyarrow。
import panda as pd
import pyarrow as pa
FILE_PATH = "/tmp/df.parquet"
df = pd.DataFrame({'a': [None, None]})
df.to_parquet(FILE_PATH)
pd.read_parquet(FILE_PATH).dtypes
这提供了以下类型:
a object
dtype: object
已定义架构:
SCHEMA = pa.schema([('a', pa.int32())])
df.to_parquet(FILE_PATH)
pd.read_parquet(FILE_PATH).dtypes
它现在提供以下类型:
a float64
dtype: object