应用错误收集

处理html文档结构

时间：2009-07-06 17:46:19

标签： html document structure

我只是想知道是否有任何资源讨论处理html文档结构。例如，如果我有一个来自纽约时报的页面，以及任何页面，我想了解主要文章的位置，页面中的重要元素在哪里。对于某些网站，原始html文档提供了此类处理的一些指示。对于其他网站，通常它给出的只是格式化标签（字体等）。我已经研究过OCR技术，但其中大部分用于识别单个元素，这与OCR完全不同。

如果有人对此主题有任何见解，我们将不胜感激！

1 个答案:

答案 0 :(得分：1)

您正在寻找的内容称为“屏幕抓取”或“数据抓取” - 谷歌搜索会为您提供一系列结果。这是来自维基百科的链接：Web Scraping

您可以在像hpricot

这样的HTML解析器之上构建一些东西

处理html文档结构
mongodb文件结构
JSoup文档结构问题
NoSql文档结构
JSOUP文档结构问题HTML
Pouchdb文档结构
对其他人的HTML文档结构感到好奇
iframe文档的实际树结构
Mongo文档结构
Polymer 1.0主要的html文档结构

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？