有没有办法使用我的分类器来分类更多的训练数据并获得准确的结果?

时间:2017-05-15 20:48:42

标签: opencv image-processing machine-learning tensorflow

我正在尝试用张量流进行图像分类。现在我正在收集和标记训练数据,但这是相当繁琐,缓慢和痛苦的。目前,通过我手工收集的训练数据,我的模型在大约57%的时间内预测图像中的正确类,它们是6个不同的类,它显然比随机猜测更好。

无论如何,我想知道我的分类器在57%的时间内是否正确;是否可以使用此分类器标记新的训练数据,以便自动收集和标记训练数据?显然,这种训练数据不会被完美标记;事实上它只会被标记为大约57%的准确度,但这仍然有用吗?这有助于模型的准确性,不会影响它,还是会伤害它?这似乎是一个有趣的思想实验:

如果Z是标记新训练数据的分类器的准确度,则N是我们具有的训练数据示例的数量,G是应用于新的非训练数据时我们模型的准确度G的限制是什么N接近无穷大,母鹿如何依赖Z?

1 个答案:

答案 0 :(得分:1)

你的方式应该没有任何好处,因为你只会训练你已经认为你知道的所有东西(你正确训练所有你能够正确预测的东西,你错误地训练你预测错误的所有东西)=&gt ;如果您使用当前的分类器自动标记,则在下次培训后,您应该获得几乎相同的分类器。

但是:通常,排序/修复预先注释的数据比完全手动标记所有内容更容易。如果您的任务就是这种情况,您可以使用分类器对数据进行预排序并手动检查+修复。然后训练以改善你的分类器=>预先分类新数据将更好=>更少的时间检查+ fix =>更少的时间进一步改进分类器,等等......

检查+修复的好工具是irfanView:

  1. 在文件夹中保存/排序带标签的图像:每个文件夹都有一个标签
  2. 使用箭头键浏览文件夹中的图像
  3. 如果预排序错误,请按F7并将图片移到子文件夹中“错误”或某事。
  4. 最后,手动对“错误”文件夹进行排序并将其移至类别文件夹。