我想通过使用xml解析器来阅读xhtml文档 问题是给定的文档并不真正有效,因为它的元标记的content属性中必须包含实体:
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>My page</title>
<meta name="dc:title" content="This is <my> example" />
<meta name="dc:publisher" content="A&B" />
</head>
</html>
现在我有了用f.e读取内容的想法。首先是BufferedReader,查找元标记并转换为实体 只有这样,我才会将“更正的”文档移交给解析器。
但是我有一些问题需要找到可能的正则表达式来完成工作。