html-parsing - 在页面上查找主要文本 - Thinbug

在页面上查找主要文本

时间：2010-11-03 05:12:13

标签： html-parsing

我需要离开才能找到包含网页实际相关文字的标签。例如，在新的论文网站上有添加，菜单和横幅等我需要能够解析网页，假设它是在XHTML中来模拟场景，并且只返回包含页面上实际新闻的标签。

我正在考虑的方法是比较每个节点中的文本大小，并选择具有大多数文本的节点。有没有人有更好的主意。

1 个答案:

答案 0 :(得分：0)

如何通过xhtml标题内容进行识别？