如何将完全标记的数据集拆分为标记和未标记的数据,以进行半监督学习

时间:2019-01-04 02:35:42

标签: java machine-learning weka

我正在研究一种新的想法,以提高半监督学习中的分类准确性。我想使用相同的文本分类数据集并将该数据集分为标签集和未标签集,如何在Java中做到这一点?

有人可以帮助我吗?

1 个答案:

答案 0 :(得分:0)

当使用更少的标签时,不会提高您的准确性。如果您拆分数据以便从一组中删除标签,然后将其与半监督学习一起使用,那只会降低您的准确性。 半监督的目的是为海量学习标记大量数据的过程非常耗时且昂贵,因此,如果您需要更多的数据(已经拥有),则可以使用技术来使用未标记的数据。 甚至在考虑Java编码之前,您是否可以进一步了解一下为什么要这么做?