我正在接受一家高频交易公司的采访。他们问我一个O(n)
的算法:
n
个分数O(1)
中的平面点,3
。我用Google搜索并做了一些研究。有一个 O(n)算法(来自普林斯顿大学的Chazelle的最佳圆圈放置),但它超出了我的水平,可以理解并将其整合在一起以便在10分钟内解释它。我已经了解O(n^2)
和O(n^3)
算法。
请帮我找一个O(n)
算法。
答案 0 :(得分:6)
我猜整数坐标约束显着简化了问题。这对我来说就像O(n):
- 制作空间中所有整数点的字典,并将条目设置为0。
- 为每个数据点找到半径为3的整数点,并将1添加到字典的相应条目中。这样做的原因是,可以是该特定数据点所在的圆的中心的点集是围绕该数据点具有相同半径的圆的整数限制。可以在位于长度为6的正方形上的所有点上进行搜索(认为并非所有点都需要明确评估,因为这些内部的超立方体内部肯定是在内部。)
- 返回对应于字典最大值的整数点,即大多数数据点在圆圈内的中心。
编辑:我猜有些代码比解释更好。这是与numpy和matplotlib一起工作的python。不难读懂:
# -*- coding: utf-8 -*-
"""
Created on Mon Mar 11 19:22:12 2013
@author: Zah
"""
from __future__ import division
import numpy as np
import numpy.random
import matplotlib.pyplot as plt
from collections import defaultdict
import timeit
def make_points(n):
"""Generates n random points"""
return np.random.uniform(0,30,(n,2))
def find_centers(point, r):
"""Given 1 point, find all possible integer centers searching in a square
around that point. Note that this method can be imporved."""
posx, posy = point
centers = ((x,y)
for x in xrange(int(np.ceil(posx - r)), int(np.floor(posx + r)) + 1)
for y in xrange(int(np.ceil(posy - r)), int(np.floor(posy + r)) + 1)
if (x-posx)**2 + (y-posy)**2 < r*r)
return centers
def find_circle(n, r=3.):
"""Find the best center"""
points = make_points(n)
d = defaultdict(int)
for point in points:
for center in find_centers(point, r):
d[center] += 1
return max(d , key = lambda x: d[x]), points
def make_results():
"""Green circle is the best center. Red crosses are posible centers for some
random point as an example"""
r = 3
center, points = find_circle(100)
xv,yv = points.transpose()
fig = plt.figure()
ax = fig.add_subplot(111)
ax.set_aspect(1)
ax.scatter(xv,yv)
ax.add_artist(plt.Circle(center, r, facecolor = 'g', alpha = .5, zorder = 0))
centersx, centersy = np.array(list(find_centers(points[0], r))).transpose()
plt.scatter(centersx, centersy,c = 'r', marker = '+')
ax.add_artist(plt.Circle(points[0], r, facecolor = 'r', alpha = .25, zorder = 0))
plt.show()
if __name__ == "__main__":
make_results()
结果: 绿色圆圈是最好的,红色的东西展示了如何选择中心的随机点。
In [70]: %timeit find_circle(1000)
1 loops, best of 3: 1.76 s per loop
In [71]: %timeit find_circle(2000)
1 loops, best of 3: 3.51 s per loop
In [72]: %timeit find_circle(3000)
1 loops, best of 3: 5.3 s per loop
In [73]: %timeit find_circle(4000)
1 loops, best of 3: 7.03 s per loop
在我真的很慢的机器上。行为显然是线性的。
答案 1 :(得分:4)
与(1)中所述的观点不同,它将要检查的圆圈数量减少到O(n)
重点发现: - 对于一个数据点p,应该只有有限数量的半径为3的圆,其中可以包括数据点p! 换句话说:具有(第一)半径3(第二)整数作为中心点坐标的圆的数量和包括一个特定数据点的(第三)是O(1)!
关键理念: 迭代半径为3的所有潜在圆,并为每个圆计算它将包含的数据点数。
<强>算法:强> - 我们初始化一个空的哈希表h,它映射一个圆心点 - 即(i,j)的组合,其中i和j都是整数 - 为整数
- For data point p_i in p_1 ... p_n // this loop takes O(n)
- determine all the centerpoints c_1, c_2 ... c_k of circles which
can include p_i (in O(1))
- for each centerpoint c_j in c_1... c_k // this loop takes O(1)
- lookup if there is an entry hashtable i.e. test h[c_j]==nil
- if h[c_j]==nil then h[c_j]:=1 end
- else h[c_j] := h[c_j] +1 end
- end for
end for
//最后一次最大确定需要O(n) - 迭代h中的所有c_k - 确定关键c_max,其中h_ [c_max]是h
中的最大值 你怎么看? 欢迎提出任何意见。