从Google Cloud Storage中读取大熊猫的实木复合地板元数据

时间:2019-12-02 11:03:20

标签: python pandas parquet

由于this的回答,我能够读取GCS上的实木复合地板文件(阅读第一个答案)。我使用了pd.read_parquet函数和pyarrow引擎。 我现在想访问镶木地板元数据,而无需将数据下载到数据框中。熊猫有可能做到这一点吗?

1 个答案:

答案 0 :(得分:0)

我找到了使用gcsfs而不使用熊猫的解决方案:

import pyarrow.parquet as pq
import gcsfs

fs = gcsfs.GCSFileSystem(project=myprojectname)

f = fs.open(myfilepath)
myschema = pq.ParquetFile(f).schema

print(schema)