大型网站显示较少的数据

时间:2010-11-08 14:58:10

标签: php mysql gallery flickr large-data-volumes

我照看一个大型网站,并一直在研究其他类似的网站。特别是,我看过flickr和deviantart。我注意到虽然他们说他们有很多数据,但他们只显示了很多数据。

我认为这是因为表现原因,但任何人都知道他们如何决定展示什么和不展示什么。经典示例,转到flickr,搜索标签。请注意页面链接下面列出的结果数量。现在计算出哪个页面,转到该页面。您会发现该页面上没有数据。事实上,在我的测试中,flickr说有5,500,000个结果,但只显示了4,000个。这是怎么回事?

大型网站是否变得如此之大以至于他们必须开始脱机处理旧数据? Deviantart有一个回避功能,但不太确定它是做什么的。

任何输入都会很棒!

2 个答案:

答案 0 :(得分:1)

这是性能优化的类型。如果已经获得4000个结果,则无需扫描全表。用户不会转到第3897页。当flickr运行搜索查询时,它会找到前4000个结果然后停止,并且不会花费CPU时间和IO时间来查找无用的其他结果。

答案 1 :(得分:0)

我想在某种程度上它是有道理的。在搜索时,如果用户没有点击任何链接,直到第400页(假设每个页面有10个结果),则用户是白痴或者爬虫以某种方式参与。

说真的,如果在第40页之前没有得到有利结果,有关公司可能需要解雇他们所有的搜索团队和采用Lucene或Sphinx :)

我的意思是,与试图显示超过4000个搜索结果的基础设施问题作斗争,他们会更好地提高搜索准确率。