使用dask.dataframe从CSV文件中按分区读取尾部

时间:2018-03-14 09:37:42

标签: python pandas csv dataframe dask

使用Dash,我们可以轻松读取CSV文件并使用head获取第一行,即使在多个分区中也是如此。

import dask.dataframe as dd
df = dd.read_csv('data.csv').head(n=100, npartitions=2)

但我想在多个分区上阅读我的CSV文件的最后一行,如下所示:

import dask.dataframe as dd
df = dd.read_csv('data.csv').tail(n=100, npartitions=2)

Dask data.frame似乎不支持tail方法上的分区。

pandas我可以使用skiprows进行管理,但Dask似乎无法使用此选项。

1 个答案:

答案 0 :(得分:0)

您好像回答了自己的问题。尾方法存在

import dask.dataframe as dd
df = dd.read_csv('data.csv').tail(n=100)

请参阅Dataframe API