应用错误收集

所以我目前有一大堆html文本，我想根据该文本中包含的内容生成一个输入表单。例如，如果文字包含＆＃39; [％Name％]＆＃39;，我希望能够阅读并识别＆＃39; Name＆＃39;是的，所以反过来启用名称的表单字段。将有多个标签（[％age％]，[％height％]等）

我正在考虑使用正则表达式，但在做了一些研究后，看起来Regex是一个用html解析html的可怕想法。我遇到了parsing html pages with groovy，但它并不严格适用于我的实施。我在数据库中存储html格式的文本（我使用ckeditor创建）。

在java / groovy中有一种有效的方法吗？或者我应该创建一个类似于here示例的算法（我不太确定给定算法的效果如何，因为它们似乎是围绕相对较小的字符串构建的，而我的字符串要解析通过最终会变得非常大（15-20页的文件））。

提前致谢