Question

我需要在我的网页上显示一个城市的所有附近位置的距离矩阵。

我想从网络服务中获取所有这些数据，并提前保存在我的数据库中。我试图找出最佳的关系数据库设计来保存这样的数据。

我想避免冗余数据，也希望设计能够提供最佳性能。

我知道关系数据库不是最好的选择，但这是我现在无法帮助的。

问题：那么存储此类信息的最佳数据库架构设计是什么。我需要查询只提供一个城市的数据库，我必须显示5或10个最近城市的矩阵。

旅行时间并不重要，我主要关注距离。

A matrix of this kind minus the duration

Answer 1

为了性能，假设您使用的是InnoDB，我可能会对数据进行非规范化处理，如下所示：

CREATE TABLE CITY (
    CITY_ID INT PRIMARY KEY
);

CREATE TABLE CITY_DISTANCE (
    CITY1_ID INT,
    CITY2_ID INT,
    DISTANCE NUMERIC NOT NULL,
    PRIMARY KEY (CITY1_ID, DISTANCE, CITY2_ID),
    FOREIGN KEY (CITY1_ID) REFERENCES CITY (CITY_ID),
    FOREIGN KEY (CITY2_ID) REFERENCES CITY (CITY_ID)
);

每对城市在CITY_DISTANCE中有2行，包含相同的DISTANCE（每个方向一个）。这显然会使它变得非常大并且可能导致数据不一致（数据库不会保护自己免受相同城市之间不匹配的DISTANCE值的影响），并且DISTANCE在逻辑上不属于PK，但请耐心等待......

InnoDB tables are clustered，这意味着通过以这种特殊的方式声明PK，我们将整个表放在一个特别适合这样的查询的B-Tree中：

SELECT CITY2_ID, DISTANCE
FROM CITY_DISTANCE
WHERE CITY1_ID = 1
ORDER BY DISTANCE
LIMIT 5

此查询将最接近的5个城市返回到由1标识的城市，并且可以通过上述B树上的简单范围扫描来满足：

id  select_type table           type    possible_keys   key     key_len ref     rows    Extra
1   SIMPLE      CITY_DISTANCE   ref     PRIMARY         PRIMARY 4       const   6       "Using where; Using index"

BTW，由于第二个FK，InnoDB将自动再创建一个索引（在CITY2_ID上），其中还包括CITY1_ID和DISTANCE，因为群集表中的二级索引必须覆盖PK。您可以利用它来避免重复的DISTANCE（在{CITY2_ID，DISTANCE，CITY1_ID}上显式创建索引并让FK重用它，并且CHECK（CITY1_ID＆lt; CITY2_ID）），但MySQL查询优化器可能不够聪明，无法处理使用此类结构所需的查询。

Answer 2

最简单的方法是存储一对城市以及您希望能够显示的距离和任何其他数据。我将城市本身存储在一个单独的表中，并且只将两个键和距离信息存储在距离表中。

我确定你只想显示最近的5或10，你可以从只添加那些记录开始。这意味着对于N个城市，您只能在数据库中获得N * 10个记录，这些记录应该具有很强的可扩展性。

即使有大量记录，如果添加适当的索引，性能也应该很好。

在DB中存储距离矩阵

2 个答案: