索引围绕具有给定距离的位置的SOLR中的维基百科文章

时间:2015-02-16 12:29:14

标签: api solr wikipedia wikipedia-api wikimedia

在Solr服务器中索引维基百科文章(包含地理位置lon / lat)的最佳方法是什么?

E.g。我有一个给定的lon / lat位置,并希望将所有维基百科文章编入索引,距离为60公里。

我可以下载整个维基百科转储并编写一个应用程序,它试图在该点的给定距离内获取xml中的所有数据。但转储大约40GB,这可能需要很长时间。我有以下条件:我想保持数据最新(它们应该每48小时更新一次)。 是否有可用的部分wiki转储(例如每个国家/地区)或用于此案例的API /应用程序?

1 个答案:

答案 0 :(得分:1)

您在评论中提到的

Special:Nearby过去是由Solr提供的,但它现在使用的是Elasticsearch。提供地理空间搜索的扩展程序 - GeoData - 也支持基于MySQL的搜索,这对于小型数据集更为实用。如果您对Solr特别感兴趣,可以在I killed it之前查看它是如何完成的,因为Elasticsearch非常好。