在我们的模拟中,我们有一个基础2D网格,闭合曲线(红线)可以在其上移动。网格单元基于其中心的位置被着色为曲线内部(绿色)或曲线外部(蓝色),并且每个网格单元具有不同的状态变量值,例如压力。对于域中的任何给定点,我们可以精确地知道它是在内部还是外部,并且插值可以给出该点的特定状态(即,该信息比仅使用以单元为中心的笛卡尔网格更具体)。
我们正在尝试对曲线内的“峰值”压力进行稳健测量(其中峰值可能是例如最高1%值的平均值)。
目前,我们只取最大的单元格中心值,但正如您在图像中看到的那样,每次曲线移动时,这会给我们一个非常大的方差。我正在尝试评估不同的选项,但我不确定它们的有效性,特别是如果我们可以使用统计技术的话。
我们考虑的选项:
N*N*num_of_2D_cells
个点N*N
点N*N
个较小的细胞并计算它们以细胞为中心的值随着N
变大,这些方法应该收敛,但是,我们的2D网格可以有超过1e7个单元格;因此,计算时间会对N
的大小设置一个上限。
有没有人有经验 - 或者知道有哪些文献可以处理 - 这类问题?
答案 0 :(得分:0)
问题陈述(知道样本中前1%的基础人口的平均值)听起来与prediction intervals 有关。我想最好在http://stats.stackexchange.com询问有关此问题的具体问题。
您知道压力值的分布,还是某些边界,例如从某种意义上说,距离x
之间的压力差总是低于y
,或类似的东西?这可以大大简化抽样方法。
根据您建议的选项,您可以调整选项#3并使用quadtree来近似曲线的形状(使用2d单元格)。然后,您可以从(大约)曲线内的那些单元格中随机抽样,其频率与其面积成比例。这样做可以避免在不在曲线内的区域中取样(这会浪费精力),并且还可以避免进一步细分(几乎)完全包含在曲线中的细胞。最后,它应该从曲线内(大约)给出一个无偏的随机样本,然后您可以在其上计算统计数据。