HTML数据提取

时间:2010-09-19 03:00:57

标签: html regex groovy extraction

我正在访问某个网站,我需要提取一些数据。更具体 - 从这一部分:

<input type="hidden" value="1" name="d520783895194bd08750e47c744d553d">

我需要提取“名称”部分。我听说reular表达式不是最好的解决方案,所以我想问一下访问我需要的这些数据的最佳方法是什么。

2 个答案:

答案 0 :(得分:2)

使用Html解析库,他们修复格式错误的Html,使其易于导航文档以查找和更新元素。以下是Java / Grovy实现列表的链接:

http://www.wavyx.net/2009/01/13/looking-for-a-java-html-parser-or-groovy/

看起来NekoHTMLTagSoup很受欢迎,但我没有使用过任何一个或者Grovy。但我在其他语言中使用过Html Parsers。

答案 1 :(得分:2)

使用NekoHTML或TagSoup解析网站后(应该注意输入字段标记未关闭),我建议使用xpath表达式:

//input[@type='hidden'][@value=1]/@name

在groovy中,您将以GPath的形式应用它。