Question

我有一个实木复合地板文件，我想将文件中的前n行读入熊猫数据框。我尝试过的：

df = pd.read_parquet(path= 'filepath', nrows = 10)

它不起作用，给了我错误：

TypeError: read_table() got an unexpected keyword argument 'nrows'

我也尝试了skiprows参数，但这也给了我同样的错误。

或者，我可以读取完整的镶木地板文件并过滤前n行，但是这需要更多的计算，我想避免这种情况。

有什么方法可以实现？

Answer 1

浏览并与pandas开发团队取得联系后，终点是pandas在读取实木复合地板文件时不支持参数nrows或skiprows。

原因是大熊猫使用pyarrow或fastparquet拼花引擎来处理拼花文件，而pyarrow不支持部分读取文件或通过跳过行来读取文件（不确定{ {1}}）。下面是熊猫github上的问题链接，以供讨论。

Answer 2

Parquet文件是面向列的存储，为此而设计...因此，加载所有文件以仅访问一行是正常的。