googlebot如何查找内容类型?

时间:2019-08-08 12:31:00

标签: googlebot google-crawlers

Google机器人如何了解文档的内容类型? 说出网页(html),pdf,excel doc等。

这是我所知道的:

Googlebot并未对每个URL进行HEAD调用。没有HEAD调用,如何知道内容类型以解析/理解文档的内容?

根据this的文章,谷歌机器人使用Chrome浏览器加载每个URL。然后,加载巨大的pdf将会非常昂贵(时间,内存等)。但是,如果不进行浏览器的加载,而是执行wget / curl并对其进行解析,该怎么办?这要简单得多。因此,基本上,Google如何大规模处理此问题?

0 个答案:

没有答案