所以我正在使用AR Drone编写颜色检测应用程序。无人机以YUV420p格式从我的相机发送我的python / opencv套接字服务器图像。
我作为opencv IPLImage访问图像的方法如下(是的,效率很低但我不想/不想自己编写新的转换工具):
我现在的问题是一个非常明显的颜色转变。我在这些照片中挥舞着红色毡片。第一个显示重黄色调。第二种情况并不是那么糟糕,但非常罕见 - 大多数情况下,当我的红色纸张显着变色时。
我想知道这两件事:
我的ffmpeg转换行看起来像
ffmpeg -s 640x480 -vcodec rawvideo -f rawvideo -pix_fmt yuv420p -i image.yuv -vcodec bmp -f image2 output.bmp
我也试过了:
ffmpeg -f rawvideo -s 640x480 -pix_fmt yuv420p -vf colormatrix=bt709:bt601 -i image.yuv -f image -vcodec png output.png
不幸的是,颜色转变始终存在!
色彩偏移现在是我的大问题,因为我后来将图像转换为HSV并使用阈值来选择适合我的颜色范围。
答案 0 :(得分:1)
这种方法似乎对我有用:
$ ffmpeg -s 352x288 -i foreman_cif_frame_0.yuv f.png
ffmpeg version N-46810-g7750c48 Copyright (c) 2000-2012 the FFmpeg developers
built on Apr 21 2013 11:12:24 with gcc 4.6 (Ubuntu/Linaro 4.6.3-1ubuntu5)
configuration: --enable-gpl --enable-libx264 --enable-libmp3lame
libavutil 52. 7.100 / 52. 7.100
libavcodec 54. 71.100 / 54. 71.100
libavformat 54. 36.100 / 54. 36.100
libavdevice 54. 3.100 / 54. 3.100
libavfilter 3. 23.100 / 3. 23.100
libswscale 2. 1.102 / 2. 1.102
libswresample 0. 16.100 / 0. 16.100
libpostproc 52. 1.100 / 52. 1.100
[rawvideo @ 0x18a1320] Estimating duration from bitrate, this may be inaccurate
Input #0, rawvideo, from 'foreman_cif_frame_0.yuv':
Duration: N/A, start: 0.000000, bitrate: N/A
Stream #0:0: Video: rawvideo (I420 / 0x30323449), yuv420p, 352x288, 25 tbr, 25 tbn, 25 tbc
Output #0, image2, to 'f.png':
Metadata:
encoder : Lavf54.36.100
Stream #0:0: Video: png, rgb24, 352x288, q=2-31, 200 kb/s, 90k tbn, 25 tbc
Stream mapping:
Stream #0:0 -> #0:0 (rawvideo -> png)
Press [q] to stop, [?] for help
frame= 1 fps=0.0 q=0.0 Lsize= 0kB time=00:00:00.04 bitrate= 0.0kbits/s
video:201kB audio:0kB subtitle:0 global headers:0kB muxing overhead -100.000000%
输出:
另一种方法是使用强大的Imagemagick
$ convert -size 352x288 -depth 8 foreman_cif_frame_0.yuv f2.png
有趣的是,ffmpeg和imagemagick不会返回相同的结果:
$ compare -compose src f.png f2.png diff.png
结果:
<强>更新强> 太糟糕了。那时唯一合理的解释就是PIL被塞住了(它在YCbCr处理方面有一些特殊性;很多Q在这里就此而言)。从我的帖子中可以看出,如果输入正确YCbCr,输出就可以了!
如果我读了你的Q正确,你已经收到了YV12格式的数据。 输入是VGA,因此以下代码将单独的平面(Y,Cb,Cr)拆分为自己的变量:
# Here I'm assuming you get the data from the drone into parameter raw
# 1 frame contains 640*480*3/2 = 460800 bytes
import numpy as np
# turn raw into a numpy array
raw = np.array(raw)
# calculate where each plane starts and stops
wh = 640 * 480
p = (0, wh, wh, wh/4*5, wh/4*5, wh/2*3)
# Now use slizing to extract the different planes
yy = np.empty(640*480, dtype=np.uint8)
cb = np.empty(640*480/4, dtype=np.uint8)
cb = np.empty(640*480/4, dtype=np.uint8)
yy = raw[p[0]:p[1]]
cb = raw[p[2]:p[3]]
cr = raw[p[4]:p[5]]
现在你有了numpy数组中的数据!要转换为矩阵,请执行以下操作:
yy.reshape([480, 640])
cb.reshape([480 / 2, 640 / 2])
cr.reshape([480 / 2, 640 / 2])
希望它有所帮助!如果没有,请给我发表评论......