Google机器人如何了解文档的内容类型? 说出网页(html),pdf,excel doc等。
这是我所知道的:
Googlebot并未对每个URL进行HEAD调用。没有HEAD调用,如何知道内容类型以解析/理解文档的内容?
根据this的文章,谷歌机器人使用Chrome浏览器加载每个URL。然后,加载巨大的pdf将会非常昂贵(时间,内存等)。但是,如果不进行浏览器的加载,而是执行wget / curl并对其进行解析,该怎么办?这要简单得多。因此,基本上,Google如何大规模处理此问题?