标签: html-parsing
我需要离开才能找到包含网页实际相关文字的标签。例如,在新的论文网站上有添加,菜单和横幅等我需要能够解析网页,假设它是在XHTML中来模拟场景,并且只返回包含页面上实际新闻的标签。
我正在考虑的方法是比较每个节点中的文本大小,并选择具有大多数文本的节点。有没有人有更好的主意。
答案 0 :(得分:0)
如何通过xhtml标题内容进行识别?