处理html文档结构

时间:2009-07-06 17:46:19

标签: html document structure

我只是想知道是否有任何资源讨论处理html文档结构。例如,如果我有一个来自纽约时报的页面,以及任何页面,我想了解主要文章的位置,页面中的重要元素在哪里。对于某些网站,原始html文档提供了此类处理的一些指示。对于其他网站,通常它给出的只是格式化标签(字体等)。我已经研究过OCR技术,但其中大部分用于识别单个元素,这与OCR完全不同。

如果有人对此主题有任何见解,我们将不胜感激!

1 个答案:

答案 0 :(得分:1)

您正在寻找的内容称为“屏幕抓取”或“数据抓取” - 谷歌搜索会为您提供一系列结果。这是来自维基百科的链接:Web Scraping

您可以在像hpricot

这样的HTML解析器之上构建一些东西