Question

好的，问题看起来像这样。我有一组n个数据库行，空行position。我需要使用该组（来自3个独立列）的地址数据（不同组合等 - 无关紧要）将它们与另一组m元素（也来自数据库，包含地址数据）进行比较并需要位置）。

因为这些集非常大（大约有数百万条记录，并且操作经常执行），所以我需要一些非常快速的算法来比较这两组并找到我需要的数据。

我试图找到一些东西，但我不知道这是否是任何众所周知的数学问题（在图论中可能？）。

[编辑]

结构太大，无法在此描述。但我会为此做一个例子。

设置1。

|[ID] | [CITY] | [STREET] | [POSTCODE] | [LOCATION] |
|-----|--------|----------|------------|------------|
| 1   | City1  | Street1  | 00000      | NULL       |
| 2   | City2  | Street2  | 11111      | NULL       |
| 3   | City3  | Street3  | 22222      | NULL       |

设置2。

|[ID] | [SOME_KIND_OF_ADDRESS]              | [LOCATION] |
|-----|-------------------------------------|------------|
| 1   | Street 1 in City 1, 00000 blah blah | SOME_XY1   |
| 2   | Street 2 in City 1, 00001 blah blah | SOME_XY2   |
| 3   | Street 2 in City 2, 11111 blah blah | SOME_XY3   |
| 4   | Street 1 in City 4, 33333 blah blah | SOME_XY4   |

现在，对于Set 1中的每个元素，我想尝试在Set 2中找到一些内容。在这种情况下，只会匹配City2, Street2和City1, Street1。结果如下：

|[ID] | [CITY] | [STREET] | [POSTCODE] | [LOCATION] |
|-----|--------|----------|------------|------------|
| 1   | City1  | Street1  | 00000      | SOME_XY1   |
| 2   | City2  | Street2  | 11111      | SOME_XY3   |

Answer 1

执行此操作的正确方法是解析集合2中的地址，然后在每个字段上创建索引。然后你的比较会非常快。

缺席，你有什么选择？好吧，你基本上必须扫描第2组中的所有地址进行比较。一些SQL引擎在字符串的开头优化比较（使用索引），因此一个比较可以使用索引。如果你有一个提取街道/城市/邮政编码的功能，那么一些数据库可以支持“功能”索引，其中元素是函数调用的结果。

另一种选择是全文搜索。这将允许您使用称为倒排索引的结构搜索组件。

但是，我的建议是修复地址并提取您想要进行比较的部分。地址整改/标准化虽然既不便宜又不快，但通常可以通过大大简化此类请求来为中期付出代价。

Answer 2

我使用以下算法：

对表格A，B进行排序
在表格的开头创建2个指针（ptrA，ptrB）
虽然（ptrA尚未结束且ptrB尚未结束）

{

if (ptrA->value=ptrB->value) update column position
if (ptrA->value>ptrB->value) move prtB forward
else move ptrA forward

}

比较具有大量数据的两个集合以查找相同的值

2 个答案: