从数据集中选择N个样本以获得最佳分布

时间:2013-12-09 02:43:27

标签: algorithm statistics distribution

之前可能已经提出过这个问题,但我找不到。我不确定如何恰当地说出来。 我的情况是这样的:

我有一个大型数据集,我想选择最能代表数据的样本子集。

更具体地说,我在单位(超级)立方体中有很多点,我想选择具有最宽/最宽覆盖范围的N个点。

我认为这必须是一个众所周知的问题(例如,颜色量化)。但是,还有一个额外的约束。 N个样本必须是原始数据集的成员,而不是群集的平均值或类似的东西。

另外,我不关心效率,准确性更重要。

感谢。

0 个答案:

没有答案