我有一个实木复合地板文件,我想将文件中的前n
行读入熊猫数据框。
我尝试过的:
df = pd.read_parquet(path= 'filepath', nrows = 10)
它不起作用,给了我错误:
TypeError: read_table() got an unexpected keyword argument 'nrows'
我也尝试了skiprows
参数,但这也给了我同样的错误。
或者,我可以读取完整的镶木地板文件并过滤前n行,但是这需要更多的计算,我想避免这种情况。
有什么方法可以实现?
答案 0 :(得分:2)
浏览并与pandas开发团队取得联系后,终点是pandas在读取实木复合地板文件时不支持参数nrows
或skiprows
。
原因是大熊猫使用pyarrow
或fastparquet
拼花引擎来处理拼花文件,而pyarrow
不支持部分读取文件或通过跳过行来读取文件(不确定{ {1}})。下面是熊猫github上的问题链接,以供讨论。
答案 1 :(得分:0)
Parquet文件是面向列的存储,为此而设计...因此,加载所有文件以仅访问一行是正常的。