Cloud Vision Face地标:如何解释Z协调?

时间:2019-04-10 18:39:52

标签: google-cloud-vision

我一直在使用Google Cloud Vision来识别面孔。到目前为止,还算不错,但是我注意到人脸界标以3轴位置返回。 X和Y是图像中的像素坐标,很好。

返回的Z值是另一个问题,API参考未指明其含义。它们绝对非零,因此它们表示某种意义。但是它们的范围是+ ve和-ve,所以它们不是相对于视图位置,而是相对于其他点(在脸上?),我不知道它们可能位于什么单位。

任何人(尤其是Google的人)都能对此有所了解吗?

关于Google Cloud Vision面部特征的API参考:https://cloud.google.com/vision/docs/reference/rest/v1/images/annotate#Landmark


我对UNITS的了解:

我以不同的分辨率测试了同一张图像。返回的Z值似乎相对于图像的比例成比例(大约)。也就是说,对于1024x1024的图像,Zs大约是同一图像的Zs的两倍,缩放为512x512。

Sample depths for an image at 1024sqr. Sample depths for the same image scaled to 512sqr

这意味着这些Z值的单位与图像的像素大小成比例...但是图像的宽度和高度与摄像机的视场和纵横比相对应(它们不能解释为距离)并且对我来说,尚不清楚深度值可能与那些参数有关。


我对参考点的了解:

经过检查,似乎界标Z值几乎始终在-ve和+ ve范围内,这意味着相对于它的任何值都在它们中间的某个位置。但是我找不到清晰的图案(例如,它基于眼睛的中心或其他特定点)。

0 个答案:

没有答案