关于搜索引擎:他们如何截取网站截图?

时间:2009-11-12 03:01:20

标签: snapshot

这可能是一个愚蠢的问题,但我真的不知道,我非常好奇!所以请耐心等待。

我所知道的是搜索引擎只是阅读网站中的HTML和文字。他们通常忽略CSS或其中的一部分。他们可以说无法读取图像。他们呢?

如果他们真的不能或忽略阅读那些,那么我的问题是他们如何制作截图,这是一个像CSS一样呈现的页面,并且有图像。

如果他们不读CSS,图像,他们也不喜欢人在他或她的屏幕上打开它。他们如何制作截图? 谢谢!

4 个答案:

答案 0 :(得分:1)

有些应用程序可以截取页面,就像在选定的浏览器中显示一样。

Browershot是一个在线服务的例子。

以下是网页缩略图生成器的一些链接和项目:

答案 1 :(得分:1)

您是指Google的新屏幕截图功能还是旧的缓存功能?你的问题是谈论截图并没有提到缓存,但你对你的问题的评论似乎暗示你指的是缓存,而不是屏幕截图。

截图:

你是正确的,因为搜索引擎通常只读取网站上的HTML和文本,因为这就是他们所需要的。但这并不意味着他们不能

当他们想要截取网站的屏幕截图时,他们只会做一个普通浏览器在用户访问网站时所做的事情。下载网站,CSS,图像和其他所有内容,并使用Web浏览器的渲染引擎(如WebKit)进行渲染。

对于缓存:

搜索引擎通常只在没有/存储HTML之前解析它。它将保存的HTML发送到您的浏览器,并且您的浏览器从原始网站中提取页面中的所有其他内容(图像等)。搜索引擎没有阅读任何内容,它只是逐字保存页面(好吧,稍作修改,即URL重写),并将其提供给您的浏览器。

答案 2 :(得分:0)

也许我不理解你的问题,但是......

您似乎正在使用“读取图像”来表示将数据从图像加载到搜索引擎。搜索引擎确实这样做(包括CSS)。当人们说搜索引擎忽略图像时,他们意味着它不会将它们视为有意义的可搜索数据。换句话说,如果我制作一个上面有“Hello”字样的图像,我就会“看”它,因为我们看到并理解图像中包含一个单词。搜索引擎通常不会尝试这样做,但如果搜索引擎希望能够在稍后向用户提供该图像,则会将图像“读取”到其存储中。

答案 3 :(得分:0)

搜索引擎不使用CSS和图像内容进行索引,但是他们可以将它们存储在服务器上以制作网站的缓存版本。

在谷歌的情况下,我认为他们只存储文本文件,所以HTML,CSS,也许javascript但没有图像。