torrentz.eu这样的网站如何收集他们的内容?

时间:2012-09-13 12:11:32

标签: search web search-engine business-intelligence

我想知道一些搜索网站如何获取他们的内容。 我在标题中使用了'torrentz.eu'的例子,因为它有来自多个来源的内容。 我想知道这个系统的背后是什么;他们“只是”解析他们支持的所有网站,然后显示内容?或者使用一些网络服务?或两者兼而有之?

1 个答案:

答案 0 :(得分:7)

您正在寻找CrawlingInformation Retrieval方面。

基本上抓取的是:给定网站的初始设置S,尝试通过浏览链接(查找transitive closure 1 )来扩展它。

有些网站也使用focused crawlers,如果他们尝试从头开始只为网络的一个子集编制索引。

P.S。某些网站既不会这样做,也会使用Google Custom Search API / Yahoo Boss / Bing Deveoper API提供的服务(当然是收费),并使用他们的索引,而不是自己创建索引

P.P.S这提供了一种理论方法,我不知道所提到的网站是如何运作的。


(1)由于时间问题,通常找不到传递闭包,但是它足够接近它。