应用错误收集

如何将完全标记的数据集拆分为标记和未标记的数据，以进行半监督学习

时间：2019-01-04 02:35:42

标签： java machine-learning weka

我正在研究一种新的想法，以提高半监督学习中的分类准确性。我想使用相同的文本分类数据集并将该数据集分为标签集和未标签集，如何在Java中做到这一点？

有人可以帮助我吗？

1 个答案:

答案 0 :(得分：0)

当使用更少的标签时，不会提高您的准确性。如果您拆分数据以便从一组中删除标签，然后将其与半监督学习一起使用，那只会降低您的准确性。半监督的目的是为海量学习标记大量数据的过程非常耗时且昂贵，因此，如果您需要更多的数据（已经拥有），则可以使用技术来使用未标记的数据。甚至在考虑Java编码之前，您是否可以进一步了解一下为什么要这么做？

标记数据和未标记数据之间有什么区别？
在单个管道中组合标记和未标记的数据
具有基于像素的标记灰度图像数据。有人建议训练这些数据进行分类吗？
如何使用xlsx文件作为数据集进入scikit-learn进行监督学习
如何从python中的时间序列数据创建监督学习数据集
如何将完全标记的数据集拆分为标记和未标记的数据，以进行半监督学习
如何将数据集（csv）分为训练和测试数据
何时将数据拆分为训练和测试数据集
我可以将RVL-CDIP数据集用于商业目的吗
如何扩展数据以进行半监督学习

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？