我正在尝试用张量流进行图像分类。现在我正在收集和标记训练数据,但这是相当繁琐,缓慢和痛苦的。目前,通过我手工收集的训练数据,我的模型在大约57%的时间内预测图像中的正确类,它们是6个不同的类,它显然比随机猜测更好。
无论如何,我想知道我的分类器在57%的时间内是否正确;是否可以使用此分类器标记新的训练数据,以便自动收集和标记训练数据?显然,这种训练数据不会被完美标记;事实上它只会被标记为大约57%的准确度,但这仍然有用吗?这有助于模型的准确性,不会影响它,还是会伤害它?这似乎是一个有趣的思想实验:
如果Z是标记新训练数据的分类器的准确度,则N是我们具有的训练数据示例的数量,G是应用于新的非训练数据时我们模型的准确度G的限制是什么N接近无穷大,母鹿如何依赖Z?
答案 0 :(得分:1)
你的方式应该没有任何好处,因为你只会训练你已经认为你知道的所有东西(你正确训练所有你能够正确预测的东西,你错误地训练你预测错误的所有东西)=&gt ;如果您使用当前的分类器自动标记,则在下次培训后,您应该获得几乎相同的分类器。
但是:通常,排序/修复预先注释的数据比完全手动标记所有内容更容易。如果您的任务就是这种情况,您可以使用分类器对数据进行预排序并手动检查+修复。然后训练以改善你的分类器=>预先分类新数据将更好=>更少的时间检查+ fix =>更少的时间进一步改进分类器,等等......
检查+修复的好工具是irfanView: