切片Dask数据帧

时间:2017-06-10 16:17:35

标签: python dataframe dask

我有以下代码,我喜欢在Dask数据帧上进行训练/测试分割

df = dd.read_csv(csv_filename, sep=',', encoding="latin-1",
                     names=cols, header=0, dtype='str') 

但是当我尝试做像

这样的切片时
for train, test in cv.split(X, y):
    df.fit(X[train], y[train])

失败并显示错误

KeyError: '[11639 11641 11642 ..., 34997 34998 34999] not in index'

有什么想法吗?

1 个答案:

答案 0 :(得分:4)

Dask.dataframe不支持逐行切片。如果您有合理的索引,它确实支持loc操作。

然而,在您的火车/测试分割的情况下,random_split方法可能会更好地为您服务。

train, test = df.random_split([0.80, 0.20])

你也可以用不同的方式进行许多分裂和连接

splits = df.random_split([0.20, 0.20, 0.20, 0.20, 0.20])

for i in range(5):
    trains = [splits[j] for j in range(5) if j != i]
    train = dd.concat(trains, axis=0)
    test = splits[i]