实施大规模分层,地理搜索新闻的正确方法是什么?

时间:2010-03-30 19:31:22

标签: search geography

我工作的公司是发送新闻稿。我们希望有兴趣的各方能够根据一系列标准搜索新闻稿,其中最重要的是位置。例如,有人可能会搜索发送到纽约市,马萨诸塞州或邮政编码89134的所有新闻,这些新闻是从政府机构发送的,主题是“流量”。或者其他什么。

问题是,我们已经发送了数十万份新闻稿。搜索既缓慢又复杂。例如,发送到纽约皇后区的新闻稿应该出现在我上面提到的搜索中,即使它没有专门发送到纽约市,因为皇后区是纽约市的一部分。我们可能还希望对查询实现“和”和“或”和否定以及文本搜索以创建复杂的搜索。这些搜索也必须足够快,才能充当动态RSS源。

我真的对搜索理论一无所知,或者它是如何正确完成的。我们现在的方式是使用数据集市将发布的位置存储在一个表中。但是,由于上面提到的子集,数据集市是巨大的,有数百万行。而且我们还没有实施城市,而且美国大约有50,000个城市,它们将以指数方式增加数据集市的规模,我担心它将不再适用。

无论如何,我意识到这不是一个简单的问题,也不会有“做到这一点”的答案。但是,我希望你们中的一个能指出我正确的方向,在那里我可以了解如何进行大规模搜索?因为我对此一无所知。而且这样的搜索引擎难以置信。谢谢!我知道必须有办法,因为如果谷歌可以搜索整个互联网,我们必须能够搜索我们自己的数据库: - )

1 个答案:

答案 0 :(得分:0)

Google可以通过Google Appliance搜索整个互联网您的数据!