应用错误收集

N维空间中一组点的数学表示？

时间：2015-08-11 09:37:46

标签： math machine-learning feature-extraction data-representation

考虑到N维空间中的一些x数据点，我试图找到一个可以描述那些x点的任何子集的固定长度表示？例如，s子集的均值可以描述该子集，但它仅对于该子集不是唯一的，也就是说，空间中的其他点可以产生相同的均值，因此均值不是唯一的标识符。谁能告诉我一个独特的措施，可以描述点而不依赖点数？

2 个答案:

答案 0 :(得分：0)

简而言之 - 这是不可能的（因为你会实现无限的无噪音压缩）。您必须具有不同的长度表示（或固定长度，长度与最大点数成比例）或处理“碰撞”（因为您的映射不会是单射的）。在第一个场景中，您只需存储每个点的坐标。在第二个中，您使用越来越复杂的描述符来近似点云，以平衡冲突和内存使用，一些可能性是：

存储均值和协方差（因此基本上对高斯族进行最大似然估计）
执行一些固定复杂度密度估计，如高斯混合模型或训练生成神经网络
使用一组简单的几何/代数属性，例如：
- 分数
- 每对点之间的平均值，最大值，最小值，中值距离
- 等

答案 1 :(得分：0)

任何子集都可以通过长度为IEnumerable<T>的位掩码进行标识，其中如果对应的元素属于子集，则位 i 为1。没有固定长度的表示不是 x 的函数。

修改

我错了。 PCA是针对此问题执行降维的好方法，但它对某些集合无效。

然而，您可以差不多这样做。 “{em>几乎”由Johnson-Lindenstrauss Lemma正式定义，其中指出对于给定的大维度 N ，存在更低的维度 n < / em>，以及将 N 中的每个点映射到 n 的线性变换，同时保持集合中每对点之间的欧几里德距离在某个误差内来自原始的ε 。这种线性变换称为JL变换。

换句话说，您的问题仅适用于每组点至少由 ε 分隔的点集。对于这种情况，JL Transform为您提供了一种可能的解决方案。此外， N ， n 和 ε 之间存在关系（参见lemma），例如，如果 N = 100，则JL变换可以将每个点映射到5D中的点（ n = 5），唯一标识每个点子集，当且仅当原始集合中任何一对点之间的最小距离至少为~2.8（即点足够不同）。

请注意， n 仅取决于 N 以及原始集合中任何一对点之间的最小距离。它不依赖于 x 点的数量，因此它是您问题的解决方案，尽管存在一些限制。