我有一幅图像,我已经根据它的像素强度从中创建了一个DataFrame。由此,我想创建一个网格,在其中找到该网格中每个正方形的平均强度,以2x2像素表示。这样做是为了捕获更大的强度区域,以便将其与背景噪声区分开。 (我认为最好包含此内容以提供上下文。)
在DataFrame中,这将转换为从一组2个相邻行和列中找到4个值的平均值。
因此,为了说明问题,假设我们具有以下DataFrame:
df=pd.DataFrame({'A':(np.linspace(1,4,num=4)),'B':(np.linspace(5,8,num=4)),'C':(np.linspace(9,12,num=4)), 'D':(np.linspace(13,16,num=4))})
由此,我们想创建一个与每个平方的均值相对应的DataFrame。在这种情况下,它将与以下内容相对应(例如,3将是2x2平方的平均值,值是(1,5,2,6),11.5是(9,13,10, 14):
df_mean=DataFrame({'A':pd.Series([3,11.5]),'B':pd.Series([5.5,13.5])})
如果问题仍然不清楚,请想象采用原始的DataFrame并在中间绘制一条垂直线和一条水平线。因此,这将产生4个盒子。在这4个框中,每个都有4个值。我想计算每个框的均值,然后将其插入到包含框均值的新DataFrame中。
PS:不幸的是,我还不知道如何显示DataFrames本身,而不仅仅是代码。打印功能不起作用。我希望这不会太麻烦。
非常感谢您!
答案 0 :(得分:3)
您可以使用基础numpy
数组非常有效地完成此操作:
def square_mean(arr, y, x):
yy, xx = arr.shape
vals = arr.reshape(y, yy//y, x, xx//x).mean((1,3))
return vals
pd.DataFrame(square_mean(df.values, 2, 2))
0 1
0 3.5 11.5
1 5.5 13.5
此解决方案之所以有效,是因为对数组进行了一些巧妙的重塑,以下是重塑的工作原理:
yy, xx = arr.shape
vals = arr.reshape(2, yy//2, 2, xx//2)
print(vals)
[[[[ 1. 5.]
[ 9. 13.]]
[[ 2. 6.]
[10. 14.]]]
[[[ 3. 7.]
[11. 15.]]
[[ 4. 8.]
[12. 16.]]]]
如您所见,该数组已被重整为大块,然后可以用来计算均值。
此解决方案将扩展到所有输入大小,只需选择x
作为沿x轴的块数,并选择y
作为沿y轴的块数:
df = pd.DataFrame(np.random.randint(1, 5, (10, 10)))
0 1 2 3 4 5 6 7 8 9
0 1 3 4 2 3 3 3 2 1 2
1 3 3 4 1 3 4 4 4 1 3
2 2 3 2 2 4 4 1 1 1 1
3 1 2 1 2 1 3 1 1 2 3
4 2 2 3 4 3 2 4 3 4 2
5 3 3 1 4 2 1 2 3 1 3
6 2 1 3 4 3 2 3 4 3 4
7 2 3 4 2 1 1 1 1 3 2
8 4 3 2 2 2 2 2 1 3 3
9 3 2 1 2 1 3 4 2 4 4
我们可以分为任意数量的块:
square_mean(df.values, 2, 2)
array([[2.44, 2.4 ],
[2.4 , 2.48]])
square_mean(df.values, 5, 5)
array([[2.5 , 2.75, 3.25, 3.25, 1.75],
[2. , 1.75, 3. , 1. , 1.75],
[2.5 , 3. , 2. , 3. , 2.5 ],
[2. , 3.25, 1.75, 2.25, 3. ],
[3. , 1.75, 2. , 2.25, 3.5 ]])
答案 1 :(得分:0)
只需对基础的numpy数组使用卷积:
import scipy.ndimage
full_conv = scipy.ndimage.filters.convolve(df.values, 0.25*np.ones((2,2)))
strided_conv = full_conv[::2, ::2]
结果:
array([[ 3.5, 11.5],
[ 5.5, 13.5]])