应用错误收集

在Python中，我正在研究旅行保险欺诈检测的二进制分类问题。这是关于我的数据集的特征：

包含具有20个功能部件的40,000个样本。进行一次热编码后，特征数量为50（4个数字，46个分类）。
多数未标记：在40,000个样本中，有33,000个样本未标记。
高度不平衡：在7,000个标记样本中，只有800个样本（11％）为阳性（欺诈）。

我不确定要扩展数据的哪一部分。想象一下您使用sklearn软件包中的fit_transform和transform的情况。通常，您适合fit_transform训练数据和transform测试数据。在半监督学习的情况下，您将标签数据分为train_L和test_L，并且您还拥有未标签数据U。下列哪种方法正确？当我想进行k折交叉验证时，它如何工作？

将fit_transform应用于train_L，将transform应用于test_L和U。
将fit_transform应用于train_L和U的并集，并将transform应用于test_L。

作为半监督算法，我正在使用带有XGB分类器的自学习和标签传播。

如何扩展数据以进行半监督学习

0 个答案: