在页面上查找主要文本

时间:2010-11-03 05:12:13

标签: html-parsing

我需要离开才能找到包含网页实际相关文字的标签。例如,在新的论文网站上有添加,菜单和横幅等我需要能够解析网页,假设它是在XHTML中来模拟场景,并且只返回包含页面上实际新闻的标签。

我正在考虑的方法是比较每个节点中的文本大小,并选择具有大多数文本的节点。有没有人有更好的主意。

1 个答案:

答案 0 :(得分:0)

如何通过xhtml标题内容进行识别?