应用错误收集

在我们的模拟中，我们有一个基础2D网格，闭合曲线（红线）可以在其上移动。网格单元基于其中心的位置被着色为曲线内部（绿色）或曲线外部（蓝色），并且每个网格单元具有不同的状态变量值，例如压力。对于域中的任何给定点，我们可以精确地知道它是在内部还是外部，并且插值可以给出该点的特定状态（即，该信息比仅使用以单元为中心的笛卡尔网格更具体）。

Cartoon of the grid

我们正在尝试对曲线内的“峰值”压力进行稳健测量（其中峰值可能是例如最高1％值的平均值）。

目前，我们只取最大的单元格中心值，但正如您在图像中看到的那样，每次曲线移动时，这会给我们一个非常大的方差。我正在尝试评估不同的选项，但我不确定它们的有效性，特别是如果我们可以使用统计技术的话。

我们考虑的选项：

在整个网格上随机抽取N*N*num_of_2D_cells个点
对于每个2D单元格，随机抽取N*N点
将每个2d细胞细分为N*N个较小的细胞并计算它们以细胞为中心的值

随着N变大，这些方法应该收敛，但是，我们的2D网格可以有超过1e7个单元格;因此，计算时间会对N的大小设置一个上限。

有没有人有经验 - 或者知道有哪些文献可以处理 - 这类问题？

问题陈述（知道样本中前1％的基础人口的平均值）听起来与prediction intervals 有关。我想最好在http://stats.stackexchange.com询问有关此问题的具体问题。

您知道压力值的分布，还是某些边界，例如从某种意义上说，距离x之间的压力差总是低于y，或类似的东西？这可以大大简化抽样方法。

根据您建议的选项，您可以调整选项＃3并使用quadtree来近似曲线的形状（使用2d单元格）。然后，您可以从（大约）曲线内的那些单元格中随机抽样，其频率与其面积成比例。这样做可以避免在不在曲线内的区域中取样（这会浪费精力），并且还可以避免进一步细分（几乎）完全包含在曲线中的细胞。最后，它应该从曲线内（大约）给出一个无偏的随机样本，然后您可以在其上计算统计数据。

随机抽样以提高压力估算的准确性？

1 个答案: