应用错误收集

时间：2012-09-13 12:11:32

标签： search web search-engine business-intelligence

我想知道一些搜索网站如何获取他们的内容。我在标题中使用了'torrentz.eu'的例子，因为它有来自多个来源的内容。我想知道这个系统的背后是什么;他们“只是”解析他们支持的所有网站，然后显示内容？或者使用一些网络服务？或两者兼而有之？

答案 0 :(得分：7)

基本上抓取的是：给定网站的初始设置S，尝试通过浏览链接（查找transitive closure ¹）来扩展它。

有些网站也使用focused crawlers，如果他们尝试从头开始只为网络的一个子集编制索引。

P.S。某些网站既不会这样做，也会使用Google Custom Search API / Yahoo Boss / Bing Deveoper API提供的服务（当然是收费），并使用他们的索引，而不是自己创建索引

P.P.S这提供了一种理论方法，我不知道所提到的网站是如何运作的。

（1）由于时间问题，通常找不到传递闭包，但是它足够接近它。