我现在正在为此打破头绪。我是这个parquet
文件的新手,并且遇到了很多问题。
每次尝试从中创建OSError: Passed non-file path: \datasets\proj\train\train.parquet
时,都会抛出一个错误,读取错误df
。
我已经尝试过了:
pq.read_pandas(r'E:\datasets\proj\train\train.parquet').to_pandas()
和
od = pd.read_parquet(r'E:\datasets\proj\train\train.parquet', engine='pyarrow')
我还更改了数据集所在驱动器的驱动器号,这是相同的事情!
所有引擎都一样。
请帮助!
答案 0 :(得分:0)
这可能是Arrow的文件路径处理问题。您可以传递一个已经打开的文件:
import pandas as pd
with open(r'E:\datasets\proj\train\train.parquet', 'rb') as f:
df = pd.read_parquet(f, engine='pyarrow')
答案 1 :(得分:0)
尝试使用fastparquet作为引擎,对我有用。
engine = "fastparquet"