如何扩展数据以进行半监督学习

时间:2019-07-04 09:46:45

标签: python scaling cross-validation supervised-learning unsupervised-learning

在Python中,我正在研究旅行保险欺诈检测的二进制分类问题。这是关于我的数据集的特征:

  • 包含具有20个功能部件的40,000个样本。进行一次热编码后,特征数量为50(4个数字,46个分类)。
  • 多数未标记:在40,000个样本中,有33,000个样本未标记。
  • 高度不平衡:在7,000个标记样本中,只有800个样本(11%)为阳性(欺诈)。

我不确定要扩展数据的哪一部分。想象一下您使用sklearn软件包中的fit_transformtransform的情况。通常,您适合fit_transform训练数据和transform测试数据。在半监督学习的情况下,您将标签数据分为train_Ltest_L,并且您还拥有未标签数据U。下列哪种方法正确?当我想进行k折交叉验证时,它如何工作?

  1. fit_transform应用于train_L,将transform应用于test_LU
  2. fit_transform应用于train_LU的并集,并将transform应用于test_L

作为半监督算法,我正在使用带有XGB分类器的自学习和标签传播。

0 个答案:

没有答案