如何将Dask数据框作为输入传递给dask-ml模型?

时间:2018-10-01 00:38:32

标签: python dask dask-ml

通常的ML管道涉及将熊猫或dask数据帧处理为可传递到ML模型中的形式。但是,许多dask-ml模型不能接受Dask数据帧,因为它们不跟踪每个分区的行数。调用Status a方法将引发fit。我应该怎么做才能将Dask数据帧传递给dask-ml模型?

这里是一个例子:

Cannot fit on dask.dataframe due to unknown partition lengths error

import dask.dataframe as dd
import pandas as pd
from dask_ml.cluster import KMeans

df = dd.from_pandas(pd.DataFrame({'A': [1, 2, 3, 4, 5], 
                                  'B': [6, 7, 8, 9, 10]}),
                    npartitions=2)

kmeans = KMeans()
kmeans.fit(df)

1 个答案:

答案 0 :(得分:1)

使用https://github.com/dask/dask-ml/pull/393的dask-ml master现在支持此功能

它将包含在Dask-ML 0.10版本中。