我在Python中编写了一个自适应颜色阈值函数(因为OpenCV的cv2.adaptiveThreshold不符合我的需要)而且速度太慢了。我已尽可能高效,但在1280x720图像上仍需要近500毫秒。
我非常感谢任何可以提高此功能效率的建议!
这是函数的作用:它使用一个像素厚度的十字形作为结构元素。对于图像中的每个像素,它会计算{strong>独立四个方向上ksize
个相邻像素的平均值(即左侧同一行中ksize
像素的平均值,在上面的同一列中,在右边的同一行中,以及在下面的同一列中)。我以四个平均值结束,每个方向一个。如果一个像素比左右平均值或者顶部和底部平均值都亮(加上一些常量C
),则该像素仅满足阈值标准。
我使用numpy.roll()
同时为所有像素逐步计算这些平均值,但我仍需要执行此ksize
次。 ksize
通常为20-50。
这是代码,相关部分实际上就是在for循环中发生的事情:
def bilateral_adaptive_threshold(img, ksize=20, C=0, mode='floor', true_value=255, false_value=0):
mask = np.full(img.shape, false_value, dtype=np.int16)
left_thresh = np.zeros_like(img, dtype=np.float32) #Store the right-side average of each pixel here
right_thresh = np.zeros_like(img, dtype=np.float32) #Store the left-side average of each pixel here
up_thresh = np.zeros_like(img, dtype=np.float32) #Store the top-side average of each pixel here
down_thresh = np.zeros_like(img, dtype=np.float32) #Store the bottom-side average of each pixel here
for i in range(1, ksize+1):
roll_left = np.roll(img, -i, axis=1)
roll_right = np.roll(img, i, axis=1)
roll_up = np.roll(img, -i, axis=0)
roll_down = np.roll(img, i, axis=0)
roll_left[:,-i:] = 0
roll_right[:,:i] = 0
roll_up[-i:,:] = 0
roll_down[:i,:] = 0
left_thresh += roll_right
right_thresh += roll_left
up_thresh += roll_down
down_thresh += roll_up
left_thresh /= ksize
right_thresh /= ksize
up_thresh /= ksize
down_thresh /= ksize
if mode == 'floor':
mask[((img > left_thresh+C) & (img > right_thresh+C)) | ((img > up_thresh+C) & (img > down_thresh+C))] = true_value
elif mode == 'ceil':
mask[((img < left_thresh-C) & (img < right_thresh-C)) | ((img < up_thresh-C) & (img < down_thresh-C))] = true_value
else: raise ValueError("Unexpected mode value. Expected value is 'floor' or 'ceil'.")
return mask
答案 0 :(得分:7)
当你提示你的问题时,函数的主要部分是获得计算平均值所需的4个数组 - 这里整个函数的平均值为210毫秒。所以,让我们专注于此。
首先,必要的进口和便利计时功能。
from timeit import default_timer as timer
import numpy as np
import cv2
## ===========================================================================
def time_fn(fn, img, ksize=20, iters=16):
start = timer()
for i in range(iters):
fn(img, ksize)
end = timer()
return ((end - start) / iters) * 1000
## ===========================================================================
# Our test image
img = np.uint8(np.random.random((720,1280)) * 256)
我们可以通过以下方式减少您的功能,以便它只计算并返回4个和数组。我们稍后可以使用它来检查优化版本是否返回相同的结果。
# Original code
def windowed_sum_v1(img, ksize=20):
left_thresh = np.zeros_like(img, dtype=np.float32)
right_thresh = np.zeros_like(img, dtype=np.float32)
up_thresh = np.zeros_like(img, dtype=np.float32)
down_thresh = np.zeros_like(img, dtype=np.float32)
for i in range(1, ksize+1):
roll_left = np.roll(img, -i, axis=1)
roll_right = np.roll(img, i, axis=1)
roll_up = np.roll(img, -i, axis=0)
roll_down = np.roll(img, i, axis=0)
roll_left[:,-i:] = 0
roll_right[:,:i] = 0
roll_up[-i:,:] = 0
roll_down[:i,:] = 0
left_thresh += roll_right
right_thresh += roll_left
up_thresh += roll_down
down_thresh += roll_up
return (left_thresh, right_thresh, up_thresh, down_thresh)
现在我们可以找到此功能在本地计算机上花费的时间:
>>> print "V1: %f ms" % time_fn(windowed_sum_v1, img, 20, 16)
V1: 188.572077 ms
numpy.roll
必然会涉及一些开销,但这里没有必要深入研究。请注意,在滚动数组之后,会将遍布数组边缘的行或列清零。然后将其添加到累加器。添加零不会改变结果,所以我们也可以避免这种情况。相反,我们可以添加整个数组的渐进的较小且适当偏移的切片,避免roll
和(稍微)减少所需的添加总数。
# Summing up ROIs
def windowed_sum_v2(img, ksize=20):
h,w=(img.shape[0], img.shape[1])
left_thresh = np.zeros_like(img, dtype=np.float32)
right_thresh = np.zeros_like(img, dtype=np.float32)
up_thresh = np.zeros_like(img, dtype=np.float32)
down_thresh = np.zeros_like(img, dtype=np.float32)
for i in range(1, ksize+1):
left_thresh[:,i:] += img[:,:w-i]
right_thresh[:,:w-i] += img[:,i:]
up_thresh[i:,:] += img[:h-i,:]
down_thresh[:h-i,:] += img[i:,:]
return (left_thresh, right_thresh, up_thresh, down_thresh)
让我们测试一下并计时:
>>> print "Results equal (V1 vs V2): %s" % (np.array_equal(windowed_sum_v1(img), windowed_sum_v2(img)))
Results equal (V1 vs V2): True
>>> print "V2: %f ms" % time_fn(windowed_sum_v2, img, 20, 16)
V2: 110.861794 ms
此实现仅占原始时间的60%。我们可以做得更好吗?
我们还有一个循环。如果我们可以通过对一些优化函数的单次调用来替换重复添加,那将是很好的。一个这样的函数是cv2.filter2D
,它计算以下内容:
我们可以创建一个内核,这样我们想要添加的点的权重为1.0
,并且内核所锚定的点的权重为0.0
。
例如,当ksize=8
时,我们可以使用以下内核和锚位置。
该功能如下:
# Using filter2d
def windowed_sum_v3(img, ksize=20):
kernel_l = np.array([[1.0] * (ksize) + [0.0]])
kernel_r = np.array([[0.0] + [1.0] * (ksize)])
kernel_u = np.array([[1.0]] * (ksize) + [[0.0]])
kernel_d = np.array([[0.0]] + [[1.0]] * (ksize))
left_thresh = cv2.filter2D(img, cv2.CV_32F, kernel_l, anchor=(ksize,0), borderType=cv2.BORDER_CONSTANT)
right_thresh = cv2.filter2D(img, cv2.CV_32F, kernel_r, anchor=(0,0), borderType=cv2.BORDER_CONSTANT)
up_thresh = cv2.filter2D(img, cv2.CV_32F, kernel_u, anchor=(0,ksize), borderType=cv2.BORDER_CONSTANT)
down_thresh = cv2.filter2D(img, cv2.CV_32F, kernel_d, anchor=(0,0), borderType=cv2.BORDER_CONSTANT)
return (left_thresh, right_thresh, up_thresh, down_thresh)
再次,让我们测试一下这个功能:
>>> print "Results equal (V1 vs V3): %s" % (np.array_equal(windowed_sum_v1(img), windowed_sum_v3(img)))
Results equal (V1 vs V3): True
>>> print "V2: %f ms" % time_fn(windowed_sum_v3, img, 20, 16)
V3: 46.652996 ms
我们降到原来时间的25%。
我们正在浮点工作,但是现在我们不进行任何划分,内核只包含1和0。这意味着我们可以使用整数。你提到最大窗口大小是50,这意味着我们使用16位有符号整数安全。整数数学往往更快,如果我们使用的代码被正确地矢量化,我们可以一次处理两次。让我们试一试,让我们提供一个包装器,以与以前的版本一样的浮点格式返回结果。
# Integer only
def windowed_sum_v4(img, ksize=20):
kernel_l = np.array([[1] * (ksize) + [0]], dtype=np.int16)
kernel_r = np.array([[0] + [1] * (ksize)], dtype=np.int16)
kernel_u = np.array([[1]] * (ksize) + [[0]], dtype=np.int16)
kernel_d = np.array([[0]] + [[1]] * (ksize), dtype=np.int16)
left_thresh = cv2.filter2D(img, cv2.CV_16S, kernel_l, anchor=(ksize,0), borderType=cv2.BORDER_CONSTANT)
right_thresh = cv2.filter2D(img, cv2.CV_16S, kernel_r, anchor=(0,0), borderType=cv2.BORDER_CONSTANT)
up_thresh = cv2.filter2D(img, cv2.CV_16S, kernel_u, anchor=(0,ksize), borderType=cv2.BORDER_CONSTANT)
down_thresh = cv2.filter2D(img, cv2.CV_16S, kernel_d, anchor=(0,0), borderType=cv2.BORDER_CONSTANT)
return (left_thresh, right_thresh, up_thresh, down_thresh)
# Integer only, but returning floats
def windowed_sum_v5(img, ksize=20):
result = windowed_sum_v4(img, ksize)
return map(np.float32,result)
让我们测试一下。
>>> print "Results equal (V1 vs V4): %s" % (np.array_equal(windowed_sum_v1(img), windowed_sum_v4(img)))
Results equal (V1 vs V4): True
>>> print "Results equal (V1 vs V5): %s" % (np.array_equal(windowed_sum_v1(img), windowed_sum_v5(img)))
Results equal (V1 vs V5): True
>>> print "V4: %f ms" % time_fn(windowed_sum_v4, img, 20, 16)
V4: 14.712223 ms
>>> print "V5: %f ms" % time_fn(windowed_sum_v5, img, 20, 16)
V5: 20.859744 ms
如果我们对16位整数很好,我们会降低到7%,如果我们想要浮点数,我们会降到10%。
让我们回到您编写的完整阈值函数。我们可以扩展内核,使filter2D
直接返回均值,而不是将和除以单独的步骤来获得平均值。这只是一个很小的改进(约3%)。
同样,您可以通过为C
电话提供适当的delta
来替换filter2D
的加法或减法。这再次削减了几个百分点。
N.B。:如果您实施上述两项更改,您可能会遇到由于浮点表示限制而产生的一些差异。
另一种可能性是将确定掩模所需的比较作为矩阵与标量的比较:
input < threshold
input - input < threshold - input
0 < threshold - input
0 < adjusted_threshold # determined using adjusted kernel
我们可以通过修改内核来减去由适当权重(ksize
)缩放的锚点像素的值来实现这一点。有了numpy,这似乎只会产生微小的差别,虽然我理解它的方式,我们可以节省一半读取算法的部分(虽然filter2D
可能仍然读取并乘以相应的值,即使重量是0)。
考虑到所有这些因素,我们可以像这样重写你的函数,并在原始时间内得到相同的结果:
def bilateral_adaptive_threshold5(img, ksize=20, C=0, mode='floor', true_value=255, false_value=0):
mask = np.full(img.shape, false_value, dtype=np.uint8)
kernel_l = np.array([[1] * (ksize) + [-ksize]], dtype=np.int16)
kernel_r = np.array([[-ksize] + [1] * (ksize)], dtype=np.int16)
kernel_u = np.array([[1]] * (ksize) + [[-ksize]], dtype=np.int16)
kernel_d = np.array([[-ksize]] + [[1]] * (ksize), dtype=np.int16)
if mode == 'floor':
delta = C * ksize
elif mode == 'ceil':
delta = -C * ksize
else: raise ValueError("Unexpected mode value. Expected value is 'floor' or 'ceil'.")
left_thresh = cv2.filter2D(img, cv2.CV_16S, kernel_l, anchor=(ksize,0), delta=delta, borderType=cv2.BORDER_CONSTANT)
right_thresh = cv2.filter2D(img, cv2.CV_16S, kernel_r, anchor=(0,0), delta=delta, borderType=cv2.BORDER_CONSTANT)
up_thresh = cv2.filter2D(img, cv2.CV_16S, kernel_u, anchor=(0,ksize), delta=delta, borderType=cv2.BORDER_CONSTANT)
down_thresh = cv2.filter2D(img, cv2.CV_16S, kernel_d, anchor=(0,0), delta=delta, borderType=cv2.BORDER_CONSTANT)
if mode == 'floor':
mask[((0 > left_thresh) & (0 > right_thresh)) | ((0 > up_thresh) & (0 > down_thresh))] = true_value
elif mode == 'ceil':
mask[((0 < left_thresh) & (0 < right_thresh)) | ((0 < up_thresh) & (0 < down_thresh))] = true_value
return mask