我一直在玩耍,遇到一些麻烦。
假设我的数据保存在名为 data 的DataFrame(大熊猫或淡淡风格)中,并且我正尝试拟合 data [yname] 的LinearRegression模型针对 data [xname] ,其中 yname 和 xname 是我数据框中某些列的名称。
1)Scikit学习+熊猫数据框版本:
with(df, ave(Customer.Ids, Company, FUN = function(x) head(x, 1)))
#[1] 1211 1325 1211
2)Scikit学习+ dask数据框版本:
sklearn.linear_model.LinearRegression().fit*(data[xname].values.reshape(-1,1), data[yname])
chunks = list(data[xname].map_partitions(len).compute())
3)dask-ml + dask数据框版本
sklearn.linear_model.LinearRegression().fit(data[xname].to_dask_array(chunks).reshape(-1,1), data[yname])
chunks = list(data[xname].map_partitions(len).compute())
这是我的问题: