在Python中,我正在研究旅行保险欺诈检测的二进制分类问题。这是关于我的数据集的特征:
我不确定要扩展数据的哪一部分。想象一下您使用sklearn软件包中的fit_transform
和transform
的情况。通常,您适合fit_transform
训练数据和transform
测试数据。在半监督学习的情况下,您将标签数据分为train_L
和test_L
,并且您还拥有未标签数据U
。下列哪种方法正确?当我想进行k折交叉验证时,它如何工作?
fit_transform
应用于train_L
,将transform
应用于test_L
和U
。fit_transform
应用于train_L
和U
的并集,并将transform
应用于test_L
。作为半监督算法,我正在使用带有XGB分类器的自学习和标签传播。