随机抽样以提高压力估算的准确性?

时间:2013-04-16 09:51:17

标签: statistics simulation interpolation random-sample approximation

在我们的模拟中,我们有一个基础2D网格,闭合曲线(红线)可以在其上移动。网格单元基于其中心的位置被着色为曲线内部(绿色)或曲线外部(蓝色),并且每个网格单元具有不同的状态变量值,例如压力。对于域中的任何给定点,我们可以精确地知道它是在内部还是外部,并且插值可以给出该点的特定状态(即,该信息比仅使用以单元为中心的笛卡尔网格更具体)。

Cartoon of the grid

我们正在尝试对曲线内的“峰值”压力进行稳健测量(其中峰值可能是例如最高1%值的平均值)。

目前,我们只取最大的单元格中心值,但正如您在图像中看到的那样,每次曲线移动时,这会给我们一个非常大的方差。我正在尝试评估不同的选项,但我不确定它们的有效性,特别是如果我们可以使用统计技术的话。

我们考虑的选项:

  1. 在整个网格上随机抽取N*N*num_of_2D_cells个点
  2. 对于每个2D单元格,随机抽取N*N
  3. 将每个2d细胞细分为N*N个较小的细胞并计算它们以细胞为中心的值
  4. 随着N变大,这些方法应该收敛,但是,我们的2D网格可以有超过1e7个单元格;因此,计算时间会对N的大小设置一个上限。

    有没有人有经验 - 或者知道有哪些文献可以处理 - 这类问题?

1 个答案:

答案 0 :(得分:0)

问题陈述(知道样本中前1%的基础人口的平均值)听起来与prediction intervals 有关。我想最好在http://stats.stackexchange.com询问有关此问题的具体问题。

您知道压力值的分布,还是某些边界,例如从某种意义上说,距离x之间的压力差总是低于y,或类似的东西?这可以大大简化抽样方法。

根据您建议的选项,您可以调整选项#3并使用quadtree来近似曲线的形状(使用2d单元格)。然后,您可以从(大约)曲线内的那些单元格中随机抽样,其频率与其面积成比例。这样做可以避免在不在曲线内的区域中取样(这会浪费精力),并且还可以避免进一步细分(几乎)完全包含在曲线中的细胞。最后,它应该从曲线内(大约)给出一个无偏的随机样本,然后您可以在其上计算统计数据。