使用标签传播进行分类的不平衡语料库

时间:2016-08-31 02:21:20

标签: python machine-learning scikit-learn nlp

我正在尝试使用半监督学习进行用户位置分类。

数据集用于在推文中进行用户位置分类,用户发布的所有消息的混合被视为该用户的一个样本。

样本数量有8个类别(位置),void onClick(...) { ... //on raycast hit with the 2d tile (targetTile) gameManager.selectedTile = targetTile; } 24233780804144,如{strong>混淆矩阵所示,91503

我希望通过这些消息预测用户的位置。

我假设某些标记数据未标记,哪些标签设置为243。在-1中使用标签传播会导致所有未标记的数据被预测为样本数量最多的标签scikit-learning

问题:我应该使用哪种方法来处理这种不平衡的半监督文本分类?

以下是我的代码的完整摘要:

3

0 个答案:

没有答案