我只是想知道是否有任何资源讨论处理html文档结构。例如,如果我有一个来自纽约时报的页面,以及任何页面,我想了解主要文章的位置,页面中的重要元素在哪里。对于某些网站,原始html文档提供了此类处理的一些指示。对于其他网站,通常它给出的只是格式化标签(字体等)。我已经研究过OCR技术,但其中大部分用于识别单个元素,这与OCR完全不同。
如果有人对此主题有任何见解,我们将不胜感激!
答案 0 :(得分:1)
您正在寻找的内容称为“屏幕抓取”或“数据抓取” - 谷歌搜索会为您提供一系列结果。这是来自维基百科的链接:Web Scraping
您可以在像hpricot
这样的HTML解析器之上构建一些东西