比方说,我目前正在使用两个不同的类对文本进行分类。我现在拥有的标签数据是我手动分类为X或Y的数据。该数据集是atm类型的大数据集,大小为7000(3500 X,3500 Y)。
问题是我有2000个,当前未标记,但它们属于X或Y(没有其他类)。
根据我使用的模型,我模型的准确度,召回率和f1-得分约为95-98。
目标不再是需要对X或Y进行手动分类,而只需让ML模型为我完成(当然,有时它会出错,而且还可以)。
问题是,我以后再训练模型时,可以将模型的预测与人工分类的训练和验证数据一起使用吗?
我知道这是一个很难回答的问题,因为您没有所有信息,等等。但是我想我并不是唯一一个想要用ML模型替换当前手动完成的事情的人。
答案 0 :(得分:1)
我认为这绝对不是一个好主意。这样,您基本上只会提高模型对预测正确的“信心”。如果添加的文档与培训集中的文档有很大不同该怎么办?我宁愿建议两件事之一(尽管您的模型似乎已经具有很好的性能):
如果您可以手动标记更多文档,也许您可以提出要标记的基本原理。例如,您可以手动标记那些预测概率很低的标签(您训练的分类器对预测的准确性不是很“自信”)
如果您有很多未标记的数据,并且您希望它们的行为与训练数据有所不同,那么值得检查半监督学习。这将同时利用标记数据和未标记数据的分布。