Google如何解析网页?

时间:2013-09-28 17:04:17

标签: html parsing

当我们谷歌的东西,它返回文件。现在我所理解的文件是带有标签的html页面。根据我的解析经验,html页面的结构化程度可能会有所不同,而且变化很大,有些页面设计得很好,每个div都以结构化方式识别,而其他页面只是一团糟。谷歌索引有数百万份文件,它如何提取相关的文本主体,并向我们展示文本文件的起始部分?

1 个答案:

答案 0 :(得分:1)

http://www.google.com/intl/en-GB/insidesearch/howsearchworks/crawling-indexing.html

Google对他们如何做到这一点做了很好的介绍。我相信他们对所有HTML方式都有一些非常严格的解析例程,有错误或其他方式。谷歌上的“HTML解析”将是一个很好的起点。