我有一个项目列表,我想从中随机抽样一个子集,但每个项目都与D bin上的直方图配对,我想以这样的方式对项目进行采样,使得求和的直方图大致均匀。
因此它应该作为下面的样本函数:
>>> import numpy
>>> #The histograms from which to sample (each having 5 bins):
>>> data = numpy.random.randint(100, size=(10000,5))
>>> #The function which I'm trying to program:
>>> samples = sample(data,500)
>>> samples.shape
(500,5)
>>> summed_histogram = samples.sum(axis=0)
>>> #Each bin should have approximately equal value
>>> summed_histogram / float(summed_histogram.sum())
array([ 0.2, 0.2, 0.2, 0.2, 0.2])
求和直方图的绝对值并不重要,也不需要完全一致,只需要大致均匀。另外,我不在乎返回的样本大小是否与指定的样本大小完全不同。抽样应无需更换。
答案 0 :(得分:2)
要扩展@Ilmari Karonen的解决方案,您要做的是为每个直方图计算权重,然后根据这些权重进行采样。在我看来,根据您的目标,最有效的方法是使用linear program。
令D_ij为第i个项目的直方图中第j个bin的权重。然后,如果每个项目用权重w_i加权,则“求和直方图”将具有权重和(项目中的i)w_i D_ij。获得“近似统一”分布的一种方法是最小化不同容器的最大差异,因此我们将解决以下LP:
minimize z
subject to (for all j, k)
z >= (sum i in items) w_i D_ij - (sum i in items) w_i D_ik
z >= (sum i in items) w_i D_ik - (sum i in items) w_i D_ij
以上基本上是说z >=
所有加权箱的差异的绝对值。要解决这个LP,你需要一个单独的包,因为numpy不包含LP求解器。有关使用cplex
或this gist的解决方案,请参阅this gist以获取使用cvxpy
的解决方案。请注意,您需要对权重设置一些约束(例如,每个权重大于或等于0),正如这些解决方案所做的那样。可以在此处找到GLPK(GNU线性编程工具包)的其他python绑定:http://en.wikibooks.org/wiki/GLPK/Python。
最后,您只需从权重i
的直方图w_i
中进行抽样。这可以通过@Ilmari Karonen建议使用cumsum
和searchsorted
改编轮盘选项来完成,请参阅this gist。
如果你希望得到的加权分布“尽可能均匀”,我会用权重来解决类似的问题,但是最大化加权熵的加权熵。虽然您可以使用任何数量的非线性求解器,例如BFGS或基于梯度的方法,但这个问题似乎是非线性的。这可能比LP方法慢一点,但这取决于您在应用程序中需要什么。如果您有大量的直方图,LP方法会非常接近非线性方法,因为它很容易达到均匀分布。
当使用LP解决方案时,一串直方图权重可能会绑定到0,因为约束的数量很少,但这对于非平凡数量的二进制文件不会有问题,因为约束的数量是O (N ^ 2)。
50个直方图和10个箱子的示例权重:
[0.006123642775837011, 0.08591660144140816, 0.0, 0.0, 0.0, 0.0, 0.03407525280610657, 0.0, 0.0, 0.0, 0.07092537493489116, 0.0, 0.0, 0.023926802333318554, 0.0, 0.03941537854267549, 0.0, 0.0, 0.0, 0.0, 0.10937063438351756, 0.08715770469631079, 0.0, 0.05841899435928017, 0.016328676622408153, 0.002218517959171183, 0.0, 0.0, 0.0, 0.08186919626269101, 0.03173286609277701, 0.08737065271898292, 0.0, 0.0, 0.041505225727435785, 0.05033635148761689, 0.0, 0.09172214842175723, 0.027548495513552738, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0259929997624099, 0.0, 0.0, 0.028044483157851748, 0.0, 0.0, 0.0]
有50个直方图,每个直方图有50个区,现在很少有零值:
[0.0219136051655165, 0.0, 0.028325808078797768, 0.0, 0.040889043180965624, 0.04372501089775975, 0.0, 0.031032870504105477, 0.020745831040881676, 0.04794861828714149, 0.0, 0.03763592540998652, 0.0029093177405377577, 0.0034239051136138398, 0.0, 0.03079554151573207, 0.0, 0.04676278554085836, 0.0461258666541918, 9.639105313353352e-05, 0.0, 0.013649362063473166, 0.059168272186891635, 0.06703936360466661, 0.0, 0.0, 0.03175895249795131, 0.0, 0.0, 0.04376133487616099, 0.02406633433758186, 0.009724226721798858, 0.05058252335384487, 0.0, 0.0393763638188805, 0.05287112817101315, 0.0, 0.0, 0.06365320629437914, 0.0, 0.024978299494456246, 0.023531082497830605, 0.033406648550332804, 0.012693750980220679, 0.00274892002684083, 0.0, 0.0, 0.0, 0.0, 0.04465971034045478, 4.888224154453002]
答案 1 :(得分:0)
您可以绘制一些完整的随机样本(500个),然后选择最均匀的样本(即最低sample.sum(axis=0).std()
)吗?这样可以避免在绘制增量样本时出现奇怪的偏差。