应用错误收集

第一个问题：

用于图像分类/物体识别的图像和注释格式是什么

这是基于this question的，它没有得到任何答案。

我注意到的是，不同的数据集使用不同的注释格式。例如，COCO使用json和imagNet csv。另外，有些图像使用RGB的扁平图像编码其他图像，因为它们带有注释。如果使用RGB代码，则RGB的存储方式会不同……依此类推。

这一切都很混乱。

有人可以给我概述主要和最常见的方法吗？如何对图像进行排序和注释，然后如何对图像/边界框/注释进行连接？

预先感谢

欢呼

edit：一个帮助是从A到Z的教程。这意味着，拍摄自己的图像，对其进行注释，组织，使用Keras / tensorflow加载它们，使用简单的CNN进行分类或对象识别。

并排分类/对象检测将很有趣，因为它们在整个设置中相似但不同。