如何使用正则表达式替换html元标记

时间:2016-05-11 01:01:03

标签: java regex

我想通过使用xml解析器来阅读xhtml文档 问题是给定的文档并不真正有效,因为它的元标记的content属性中必须包含实体:

<html xmlns="http://www.w3.org/1999/xhtml">
  <head>
    <title>My page</title>
    <meta name="dc:title" content="This is <my> example" />
    <meta name="dc:publisher" content="A&B" />
  </head>
</html>

现在我有了用f.e读取内容的想法。首先是BufferedReader,查找元标记并转换为实体 只有这样,我才会将“更正的”文档移交给解析器。

但是我有一些问题需要找到可能的正则表达式来完成工作。

0 个答案:

没有答案