为了给出一些背景知识,我正在模拟不同的家庭属性如何影响周围房屋的价格。为此,我有一张4,000个房屋销售表和每个房屋的人口统计数据。我正在产生一个价值作为衡量每对房屋之间“可替代性”的指标。
我首先想到的是在Excel中构建一个4000x4000矩阵。然而,一旦我的计算有点毛茸茸,我很快就会遇到内存限制。
所以现在我把交易放到上面提到的表中,我想构建一个“交互”表,每一行都是一对房子,一列作为可替代性度量。
表结构如下所示:
House1ID House2ID SubIndex
1 2 400
1 3 450
2 3 500
我的问题是我正在使用的统计软件包需要以下格式的数据:
1 2 3
1 0 400 450
2 400 0 500
3 450 500 0
有没有办法从上面提到的表结构转到需要的矩阵输出?
非常感谢所有帮助!
编辑: 经过一番调查后,我意识到我现在可以通过使用交叉连接的视图生成规范化的“表”。虽然这根本没有真正改变这个问题,但我认为这很有趣,并且认为我会指出我正在使用的方法。