解析Java中的元标记

时间:2008-11-18 16:49:50

标签: java html xml parsing

我有一组HTML文档,我需要解析< meta>的内容。 < head>中的标签部分。这些是我唯一感兴趣的值的HTML标签,即我不需要解析< body>中的任何内容。部分。

我尝试使用JDom提供的XPath支持解析这些值。但是,这并不是很好,因为< body>中的很多HTML都是如此。 section是无效的XML。

有没有人对我如何以可以处理格式错误的HTML的方式解析这些标记值有任何建议?

干杯, 唐

3 个答案:

答案 0 :(得分:6)

您可以使用Jericho HTML Parser。特别是,请查看this,了解如何查找特定标记。

答案 1 :(得分:2)

如果它适合您的应用程序,您可以使用Tidy将HTML转换为有效的XML,然后使用尽可能多的XPath!

答案 2 :(得分:0)

JTidy应为此提供良好的起点。