给定点之间的距离矩阵是否存在用于确定具有这些距离的一组n维点的算法? (或至少最小化错误)
有点像收费公路问题的n维版本。
我能想到的最好的就是使用多维缩放。
答案 0 :(得分:6)
您使用多维缩放(MDS)处于正确的轨道上,但MDS对于大型数据集来说是不切实际的,因为它的时间复杂度是点数的二次方。您可能希望查看具有线性时间复杂度并且更适合索引的FastMap。参见:
Christos Faloutsos和King-Ip Lin: “FastMap:一种快速算法 索引,数据挖掘和 传统与传统的可视化 多媒体数据集,在 Proc。 SIGMOD ,1995,doi:10.1145/223784.223812
答案 1 :(得分:4)
你可以“欺骗”并使用迭代数值方法。最初将所有点放在一些“随机”位置,然后循环通过它们,将它们按比例移动到所需距离。这将更喜欢一些点,但在应用它们之前取平均值,然后应用平均值将消除此问题。这是一个O(n²)算法,但实现和理解起来非常简单。在下面的2-d示例中,错误是<< 10%,但如果给出的距离不切实际,它可能表现不佳。
C ++示例:
#include <conio.h>
#include <math.h>
#include <stdio.h>
#include <stdlib.h>
#define DAMPING_FACTOR 0.99f
class point
{
public:
float x;
float y;
public:
point() : x(0), y(0) {}
};
// symmetric matrix with distances
float matrix[5][5] = {
{ 0.0f, 4.5f, 1.5f, 2.0f, 4.0f },
{ 4.5f, 0.0f, 4.0f, 3.0f, 3.5f },
{ 1.5f, 4.0f, 0.0f, 1.0f, 5.0f },
{ 2.0f, 3.0f, 1.0f, 0.0f, 4.5f },
{ 4.0f, 3.5f, 5.0f, 4.5f, 0.0f }
};
int main(int argc, char** argv)
{
point p[5];
for(unsigned int i = 0; i < 5; ++i)
{
p[i].x = (float)(rand()%100)*0.1f;
p[i].y = (float)(rand()%100)*0.1f;
}
// do 1000 iterations
float dx = 0.0f, dy = 0.0f, d = 0.0f;
float xmoves[5], ymoves[5];
for(unsigned int c = 0; c < 1000; ++c)
{
for(unsigned int i = 0; i < 5; ++i) xmoves[i] = ymoves[i] = 0.0f;
// iterate across each point x each point to work out the results of all of the constraints in the matrix
// collect moves together which are slightly less than enough (DAMPING_FACTOR) to correct half the distance between each pair of points
for(unsigned int i = 0; i < 5; ++i)
for(unsigned int j = 0; j < 5; ++j)
{
if(i==j) continue;
dx = p[i].x - p[j].x;
dy = p[i].y - p[j].y;
d = sqrt(dx*dx + dy*dy);
dx /= d;
dy /= d;
d = (d - matrix[i][j])*DAMPING_FACTOR*0.5f*0.2f;
xmoves[i] -= d*dx;
ymoves[i] -= d*dy;
xmoves[j] += d*dx;
ymoves[j] += d*dy;
}
// apply all at once
for(unsigned int i = 0; i < 5; ++i)
{
p[i].x += xmoves[i];
p[i].y += ymoves[i];
}
}
// output results
printf("Result:\r\n");
for(unsigned int i = 0; i < 5; ++i)
{
for(unsigned int j = 0; j < 5; ++j)
{
dx = p[i].x - p[j].x;
dy = p[i].y - p[j].y;
printf("%f ", sqrt(dx*dx + dy*dy));
}
printf("\r\n");
}
printf("\r\nDesired:\r\n");
for(unsigned int i = 0; i < 5; ++i)
{
for(unsigned int j = 0; j < 5; ++j)
{
printf("%f ", matrix[i][j]);
}
printf("\r\n");
}
printf("Absolute difference:\r\n");
for(unsigned int i = 0; i < 5; ++i)
{
for(unsigned int j = 0; j < 5; ++j)
{
dx = p[i].x - p[j].x;
dy = p[i].y - p[j].y;
printf("%f ", abs(sqrt(dx*dx + dy*dy) - matrix[i][j]));
}
printf("\r\n");
}
printf("Press any key to continue...");
while(!_kbhit());
return 0;
}
答案 2 :(得分:2)
有一种算法可以在Programming Collective Intelligence中执行此操作,p。 49,“在二维中查看数据”,可以适用于n维。
嘿 - 这是多维缩放 - 所以我猜你是在正确的轨道上。
答案 3 :(得分:1)
我无法编辑原文,因为我没有足够的代表,但我试图在这里重述这个问题。
OP具有输入NxN距离矩阵。他想创建一个N维坐标表示点的输出数组,其中每个点之间的距离存储在输入矩阵中。
请注意,在一般情况下,这是不可解决的:
假设我有一个像这样的矩阵
A B C A x 1 2 B x 0 C x
A距离B的距离为1个单位(比如1米),A距离C为1米。但B和C位于同一位置。
在这种特殊情况下,最小误差总和为1米,并且有各种各样的解决方案可以实现这一结果