比较具有大量数据的两个集合以查找相同的值

时间:2013-03-22 11:40:08

标签: sql database algorithm graph set

好的,问题看起来像这样。我有一组n个数据库行,空行position。我需要使用该组(来自3个独立列)的地址数据(不同组合等 - 无关紧要)将它们与另一组m元素(也来自数据库,包含地址数据)进行比较并需要位置)。

因为这些集非常大(大约有数百万条记录,并且操作经常执行),所以我需要一些非常快速的算法来比较这两组并找到我需要的数据。

我试图找到一些东西,但我不知道这是否是任何众所周知的数学问题(在图论中可能?)。

[编辑]

结构太大,无法在此描述。但我会为此做一个例子。

设置1。

|[ID] | [CITY] | [STREET] | [POSTCODE] | [LOCATION] |
|-----|--------|----------|------------|------------|
| 1   | City1  | Street1  | 00000      | NULL       |
| 2   | City2  | Street2  | 11111      | NULL       |
| 3   | City3  | Street3  | 22222      | NULL       |

设置2。

|[ID] | [SOME_KIND_OF_ADDRESS]              | [LOCATION] |
|-----|-------------------------------------|------------|
| 1   | Street 1 in City 1, 00000 blah blah | SOME_XY1   |
| 2   | Street 2 in City 1, 00001 blah blah | SOME_XY2   |
| 3   | Street 2 in City 2, 11111 blah blah | SOME_XY3   |
| 4   | Street 1 in City 4, 33333 blah blah | SOME_XY4   |

现在,对于Set 1中的每个元素,我想尝试在Set 2中找到一些内容。在这种情况下,只会匹配City2, Street2City1, Street1。结果如下:

|[ID] | [CITY] | [STREET] | [POSTCODE] | [LOCATION] |
|-----|--------|----------|------------|------------|
| 1   | City1  | Street1  | 00000      | SOME_XY1   |
| 2   | City2  | Street2  | 11111      | SOME_XY3   |

2 个答案:

答案 0 :(得分:2)

执行此操作的正确方法是解析集合2中的地址,然后在每个字段上创建索引。然后你的比较会非常快。

缺席,你有什么选择?好吧,你基本上必须扫描第2组中的所有地址进行比较。一些SQL引擎在字符串的开头优化比较(使用索引),因此一个比较可以使用索引。如果你有一个提取街道/城市/邮政编码的功能,那么一些数据库可以支持“功能”索引,其中元素是函数调用的结果。

另一种选择是全文搜索。这将允许您使用称为倒排索引的结构搜索组件。

但是,我的建议是修复地址并提取您想要进行比较的部分。地址整改/标准化虽然既不便宜又不快,但通常可以通过大大简化此类请求来为中期付出代价。

答案 1 :(得分:0)

我使用以下算法:

  1. 对表格A,B进行排序
  2. 在表格的开头创建2个指针(ptrA,ptrB)
  3. 虽然(ptrA尚未结束且ptrB尚未结束)
  4. {

    if (ptrA->value=ptrB->value) update column position
    if (ptrA->value>ptrB->value) move prtB forward
    else move ptrA forward
    

    }