应用错误收集

Google机器人如何了解文档的内容类型？说出网页（html），pdf，excel doc等。

这是我所知道的：

Googlebot并未对每个URL进行HEAD调用。没有HEAD调用，如何知道内容类型以解析/理解文档的内容？

根据this的文章，谷歌机器人使用Chrome浏览器加载每个URL。然后，加载巨大的pdf将会非常昂贵（时间，内存等）。但是，如果不进行浏览器的加载，而是执行wget / curl并对其进行解析，该怎么办？这要简单得多。因此，基本上，Google如何大规模处理此问题？