在MYSQL中为“最近邻居”搜索实现k-d树?

时间:2011-08-10 04:04:20

标签: mysql sql multidimensional-array nearest-neighbor kdtree

我正在为外汇市场设计一个自动交易软件。 在MYSQL数据库中,我每隔五分钟就会有多年的市场数据。除了价格和时间外,我还有4种不同的数据指标。

[Time|Price|M1|M2|M3|M4] 
x ~400,0000

Time是主键,M1M4是不同的指标(例如标准偏差或移动平均线的斜率)。

这是一个真实的示例(摘录:)

+------------+--------+-----------+--------+-----------+-----------+
|  Time      | Price  |     M1    |   M2   |    M3     |     M4    |
+------------+--------+-----------+--------+-----------+-----------+
| 1105410300 | 1.3101 |   12.9132 | 0.4647 |   29.6703 |        50 |
| 1105410600 | 1.3103 |    14.056 | 0.5305 | 29.230801 |        50 |
| 1105410900 | 1.3105 |   15.3613 | 0.5722 |   26.8132 |        25 |
| 1105411200 | 1.3106 | 16.627501 | 0.4433 | 24.395599 |  26.47059 |
| 1105411500 | 1.3112 |   18.7843 | 1.0019 | 24.505501 |    34.375 |
| 1105411800 | 1.3111 |   19.8375 | 0.5626 |        20 |   32.8125 |
| 1105412100 | 1.3105 |   20.0168 | 0.6718 |    9.7802 |   23.4375 |
| 1105412400 | 1.3105 |   20.4538 | 0.8943 |     7.033 |   23.4375 |
| 1105412700 | 1.3109 |   21.6078 | 0.4902 |   11.7582 |   29.6875 |
| 1105413000 | 1.3104 |   21.2045 |  1.565 |    8.6813 |    21.875 |
+------------+--------+-----------+--------+-----------+-----------+...400k more

根据M1M2M3M4的输入,我希望(快速准确地)找到5,000个最接近的匹配。

示例输入:

+------------+--------+-----------+--------+-----------+-----------+
|  Time      | Price  |     M1    |   M2   |    M3     |     M4    |
+------------+--------+-----------+--------+-----------+-----------+
| 1205413000 | 1.4212 |   20.1045 | 1.0012 |    9.1013 |    11.575 |
+------------+--------+-----------+--------+-----------+-----------+

我认为这些指标中的每一个都可以被视为“维度”,并且我可以执行nearest neighbor search来定位此多维空间中最近的数据点。

这样做最简单的方法是迭代每个数据点并测量到输入点的多维距离;但速度至关重要!

我读到了用于此目的的名为K-D Trees的内容。任何人都可以解释或提供一些解释如何在MYSQL中实现它的材料吗?

可能有必要提一下,我可以对表进行预处理,但输入是实时接收的。

目前我只是围绕每个维度的数据独立制作一个粗略的集群:

INSERT INTO Dim1 SELECT * FROM myTable AS myTable USE INDEX(M1) WHERE myTable.M1 < currentM1 ORDER BY M1 DESC LIMIT 2500;
INSERT INTO Dim1 SELECT * FROM myTable AS myTable USE INDEX(M1) WHERE myTable.M1 > currentM1 ORDER BY M1  ASC LIMIT 2500;

INSERT INTO Dim2 SELECT * FROM myTable AS myTable USE INDEX(M2) WHERE myTable.M2 < currentM2 ORDER BY M2 DESC LIMIT 2500;
INSERT INTO Dim2 SELECT * FROM myTable AS myTable USE INDEX(M2) WHERE myTable.M2 > currentM2 ORDER BY M2  ASC LIMIT 2500;

INSERT INTO Dim3 SELECT * FROM myTable AS myTable USE INDEX(M3) WHERE myTable.M3 < currentM3 ORDER BY M3 DESC LIMIT 2500;
INSERT INTO Dim3 SELECT * FROM myTable AS myTable USE INDEX(M3) WHERE myTable.M3 > currentM3 ORDER BY M3  ASC LIMIT 2500;

INSERT INTO Dim4 SELECT * FROM myTable AS myTable USE INDEX(M4) WHERE myTable.M4 < currentM4 ORDER BY M4 DESC LIMIT 2500;
INSERT INTO Dim4 SELECT * FROM myTable AS myTable USE INDEX(M4) WHERE myTable.M4 > currentM4 ORDER BY M4  ASC LIMIT 2500;

重要的是要了解我对排名的距离感兴趣,而不是按价值感兴趣。

编辑:我更接近理解如何做(我认为): 我需要对每个指标的每一行进行预处理,并为其指定一个percentile,表示其范围内的位置(百分比)。

例如,对于M1的任何给定值:

percentile = (#  rows with values less than input)/(# total rows) 

如果我计算输入的百分位数并使用那个进行最近邻搜索而不是实际值,我将有效地缩放各种指标,以便它们可以用作维度。

我仍然对如何进行实际搜索感到失望。这甚至可以在MySQL中高效完成吗?

1 个答案:

答案 0 :(得分:0)

您应该可以执行以下查询:

SELECT * FROM myTable
WHERE M1 BETWEEN searchM1 - radiusM1 AND searchM1 + radiusM1
  AND M2 BETWEEN searchM2 - radiusM2 AND searchM2 + radiusM2
  AND M3 BETWEEN searchM3 - radiusM3 AND searchM3 + radiusM3
  AND M4 BETWEEN searchM4 - radiusM4 AND searchM4 + radiusM4

对于球体,当然所有radius值都是相同的。然后调整半径,直到接近所需的记录数。我建议binary search

我不确定你是否想要混淆发行版,但假设你这样做,你只需要给每个搜索值一个等级,它将在你的表中介于两个值之间(例如,如果排名5是5.5,等级6是5.9,搜索值是5.6,那么搜索等级可以是5.5)