熊猫:从实木复合地板文件中读取前n行?

时间:2018-12-31 01:45:24

标签: python pandas parquet

我有一个实木复合地板文件,我想将文件中的前n行读入熊猫数据框。 我尝试过的:

df = pd.read_parquet(path= 'filepath', nrows = 10)

它不起作用,给了我错误:

TypeError: read_table() got an unexpected keyword argument 'nrows'

我也尝试了skiprows参数,但这也给了我同样的错误。

或者,我可以读取完整的镶木地板文件并过滤前n行,但是这需要更多的计算,我想避免这种情况。

有什么方法可以实现?

2 个答案:

答案 0 :(得分:2)

浏览并与pandas开发团队取得联系后,终点是pandas在读取实木复合地板文件时不支持参数nrowsskiprows

原因是大熊猫使用pyarrowfastparquet拼花引擎来处理拼花文件,而pyarrow不支持部分读取文件或通过跳过行来读取文件(不确定{ {1}})。下面是熊猫github上的问题链接,以供讨论。

https://github.com/pandas-dev/pandas/issues/24511

答案 1 :(得分:0)

Parquet文件是面向列的存储,为此而设计...因此,加载所有文件以仅访问一行是正常的。