我有一组HTML文档,我需要解析< meta>的内容。 < head>中的标签部分。这些是我唯一感兴趣的值的HTML标签,即我不需要解析< body>中的任何内容。部分。
我尝试使用JDom提供的XPath支持解析这些值。但是,这并不是很好,因为< body>中的很多HTML都是如此。 section是无效的XML。
有没有人对我如何以可以处理格式错误的HTML的方式解析这些标记值有任何建议?
干杯, 唐
答案 0 :(得分:6)
您可以使用Jericho HTML Parser。特别是,请查看this,了解如何查找特定标记。
答案 1 :(得分:2)
如果它适合您的应用程序,您可以使用Tidy将HTML转换为有效的XML,然后使用尽可能多的XPath!
答案 2 :(得分:0)
JTidy应为此提供良好的起点。