我想将数据分为测试集和训练集,但是随着时间的推移,我对人进行了重复观察,因此我希望以这样一种方式进行分裂,即没有人会在两个记录中都出现观察结果测试和培训数据集。为了在scikit-learn中进行这种拆分,我将使用GroupShuffleSplit做这样的事情:
def func(prefix: List):
for subtree in self.subtrees:
if subtree.value == prefix[0]:
subtree.value += prefix[0]
break
如何使用Dask或Dask-ML做到这一点?