谷歌从抓取的网页中提取了哪些信息?

时间:2012-11-01 10:48:00

标签: search search-engine scrape web-crawler

谷歌通过抓取下载整个页面,然后抓取一些数据来创建索引,如标题,元标记?

谷歌从网页中提取的其他数据点是什么?

1 个答案:

答案 0 :(得分:0)

来自Google创始人的this旧版和经典论文:

系统功能包括:

  • 超链接(用于计算pagerank)
  • 主播文字
  • 视觉演示细节,例如单词的字体大小
  • 页面的完整原始HTML可在存储库中找到

另请参阅this了解有关信息检索目的的处理的更多信息。