应用错误收集

据说“4916个正面训练样例是手工挑选对齐，标准化，并缩放到24x24的基本分辨率。通过从9500个不包含面部的图像中随机挑选子窗口来选择10,000个负面例子。”在文章“保罗·维奥拉和迈克尔·琼斯的强大的实时人脸检测”中

我的问题是他们对手工挑选对齐，标准化和缩放到24x24的基本分辨率意味着什么？

“手工挑选对齐”是否意味着他们有4916张不同面孔的4916张正片？ “标准化”是否意味着每个4916图像具有相同的特征[文件大小，文件类型，图片颜色（灰度/彩色）]？ “缩放到24x24的基本分辨率”是否意味着4916个图像中的每一个都被重新调整为24x24像素？

谢谢你的时间！

“手工挑选对齐”意味着他们有4916张正面图片4916 不同的面孔？

不是很明显 - 但是，是的，他们给了4916张不同的面孔照片。这些面孔是由“人类专家”手动找到的。

“标准化”是否意味着4916个图像中的每一个都具有相同的图像功能[文件大小，文件类型，图片颜色（灰度/彩色）]？

他们只使用了灰度像素，标准化意味着他们确保没有“黑色”和“白色”图片。如果一张照片非常暗 - 它会自动变亮，如果它不够暗 - 它会变暗。这很容易通过自动组件完成。

“缩放到24x24的基本分辨率”是指4916中的每一个图像重新调整为24x24像素？

是的，他们通过在图片上应用一些处理来确保每个“面部”正好是24x24像素。