应用错误收集

解析Java中的元标记

时间：2008-11-18 16:49:50

标签： java html xml parsing

我有一组HTML文档，我需要解析＆lt; meta＆gt;的内容。＆lt; head＆gt;中的标签部分。这些是我唯一感兴趣的值的HTML标签，即我不需要解析＆lt; body＆gt;中的任何内容。部分。

我尝试使用JDom提供的XPath支持解析这些值。但是，这并不是很好，因为＆lt; body＆gt;中的很多HTML都是如此。 section是无效的XML。

有没有人对我如何以可以处理格式错误的HTML的方式解析这些标记值有任何建议？

干杯，唐

3 个答案:

答案 0 :(得分：6)

您可以使用Jericho HTML Parser。特别是，请查看this，了解如何查找特定标记。

答案 1 :(得分：2)

如果它适合您的应用程序，您可以使用Tidy将HTML转换为有效的XML，然后使用尽可能多的XPath！

答案 2 :(得分：0)

JTidy应为此提供良好的起点。