我目前正在解决涉及公交车GPS数据的问题。我面临的问题是减少我的过程中的计算。
在一张桌子上有大约20亿个GPS坐标点(Lat-Long度),在另一张桌子上有大约12,000个带有Lat-Long的公交车站点。预计20亿点中只有5-10%位于公交站点。
问题:我需要标记并提取那些位于公交站点(12,000点)的点数(20亿)。由于这是GPS数据,我无法对坐标进行精确匹配,而是进行基于容差的地理围栏。
问题:使用当前天真的方法标记公共汽车站的过程花费了很长时间。目前,我们正在挑选12,000个公交站点,并查询20亿点,公差为100米(通过将度差转换为距离)。
问题:是否有一个算法上有效的流程来实现这种点标记?
答案 0 :(得分:1)
是的,您可以使用SpatialSpark之类的内容。它仅适用于Spark 1.6.1,但您可以使用BroadcastSpatialJoin创建一个非常高效的RTree
。
以下是我使用SpatialSpark与PySpark检查不同多边形是否在彼此之内或相交的示例:
from ast import literal_eval as make_tuple
print "Java Spark context version:", sc._jsc.version()
spatialspark = sc._jvm.spatialspark
rectangleA = Polygon([(0, 0), (0, 10), (10, 10), (10, 0)])
rectangleB = Polygon([(-4, -4), (-4, 4), (4, 4), (4, -4)])
rectangleC = Polygon([(7, 7), (7, 8), (8, 8), (8, 7)])
pointD = Point((-1, -1))
def geomABWithId():
return sc.parallelize([
(0L, rectangleA.wkt),
(1L, rectangleB.wkt)
])
def geomCWithId():
return sc.parallelize([
(0L, rectangleC.wkt)
])
def geomABCWithId():
return sc.parallelize([
(0L, rectangleA.wkt),
(1L, rectangleB.wkt),
(2L, rectangleC.wkt)])
def geomDWithId():
return sc.parallelize([
(0L, pointD.wkt)
])
dfAB = sqlContext.createDataFrame(geomABWithId(), ['id', 'wkt'])
dfABC = sqlContext.createDataFrame(geomABCWithId(), ['id', 'wkt'])
dfC = sqlContext.createDataFrame(geomCWithId(), ['id', 'wkt'])
dfD = sqlContext.createDataFrame(geomDWithId(), ['id', 'wkt'])
# Supported Operators: Within, WithinD, Contains, Intersects, Overlaps, NearestD
SpatialOperator = spatialspark.operator.SpatialOperator
BroadcastSpatialJoin = spatialspark.join.BroadcastSpatialJoin
joinRDD = BroadcastSpatialJoin.apply(sc._jsc, dfABC._jdf, dfAB._jdf, SpatialOperator.Within(), 0.0)
joinRDD.count()
results = joinRDD.collect()
map(lambda result: make_tuple(result.toString()), results)
# [(0, 0), (1, 1), (2, 0)] read as:
# ID 0 is within 0
# ID 1 is within 1
# ID 2 is within 0
注意这一行
joinRDD = BroadcastSpatialJoin.apply(sc._jsc, dfABC._jdf, dfAB._jdf, SpatialOperator.Within(), 0.0)
最后一个参数是缓冲区值,在您的情况下,它将是您要使用的容差。如果您使用lat / lon,它可能是一个非常小的数字,因为它是一个径向系统,根据您想要的公差,您需要calculate based on lat/lon for your area of interest。