解析html文本以获取输入字段

时间:2014-06-11 15:44:09

标签: java groovy

所以我目前有一大堆html文本,我想根据该文本中包含的内容生成一个输入表单。例如,如果文字包含' [%Name%]',我希望能够阅读并识别' Name'是的,所以反过来启用名称的表单字段。将有多个标签([%age%],[%height%]等)

我正在考虑使用正则表达式,但在做了一些研究后,看起来Regex是一个用html解析html的可怕想法。我遇到了parsing html pages with groovy,但它并不严格适用于我的实施。我在数据库中存储html格式的文本(我使用ckeditor创建)。

在java / groovy中有一种有效的方法吗?或者我应该创建一个类似于here示例的算法(我不太确定给定算法的效果如何,因为它们似乎是围绕相对较小的字符串构建的,而我的字符串要解析通过最终会变得非常大(15-20页的文件))。

提前致谢

1 个答案:

答案 0 :(得分:1)

我认为使用jsoup更好,而不是重新实现轮子。它是一个很好的工具,可以很容易地使用它的选择器语法在html页面中获取任何内容。查看cookbook中的使用示例。