标签: algorithm statistics distribution
之前可能已经提出过这个问题,但我找不到。我不确定如何恰当地说出来。 我的情况是这样的:
我有一个大型数据集,我想选择最能代表数据的样本子集。
更具体地说,我在单位(超级)立方体中有很多点,我想选择具有最宽/最宽覆盖范围的N个点。
我认为这必须是一个众所周知的问题(例如,颜色量化)。但是,还有一个额外的约束。 N个样本必须是原始数据集的成员,而不是群集的平均值或类似的东西。
另外,我不关心效率,准确性更重要。
感谢。