我需要使用深度学习将输入向量分为10类(数字从0到9)。为此,我有两个训练数据集:一个训练数据集(n = 9000)和另一个未标记(n = 21000)。
我应该只使用带标签的火车数据集来训练我的模型,还是先使用它来预测未标记的火车数据集的标签,然后再使用所有火车数据来训练模型?您还建议其他什么方法?可以使用自动编码器吗?
我已经尝试使用标记的训练数据来预测未标记数据的标记。但是,我还没有达到一个好的准确性。我想知道这是由估算数据或模型引起的。
TypeError: {'Content-Security-Policy': "default-src 'none'", 'Content-Type': 'application/json', 'Content-Encoding': 'gzip', 'Expires': '0', 'X-Backside-Transport': 'OK OK', 'X-DP-Transit-ID': 'gateway01-1254538093', 'Cache-Control': 'no-cache, no-store', 'Pragma': 'no-cache', 'Connection': 'keep-alive', 'x-global-transaction-id': '7ecac92c59876gfjbb6d', 'Vary': 'Accept-Encoding', 'X-Content-Type-Options': 'nosniff', 'Strict-Transport-Security': 'max-age=31536000;', 'X-DP-Watson-Tran-ID': 'gateway01-125765453', 'X-EdgeConnect-MidMile-RTT': '19', 'X-EdgeConnect-Origin-MEX-Latency': '498', 'Content-Length': '868', 'Date': 'Thu, 23 May 2019 17:15:58 GMT', 'X-XSS-Protection': '1'} is not JSON serializable
答案 0 :(得分:1)
一种处理数据情况(小标签+大标签数据)的方法称为半监督学习。
直接使用根据小标签训练数据训练的模型有其自身的问题。如果您的初始模型精度不够好,或者标记的训练数据有偏差,那么您将看到错误传播到生成的标签。
要使半监督学习能够令人满意地工作是非常具有挑战性的,我建议查看Ladder网络,伪标签和度量学习论文,以尝试更多有原则的方法。