在Grails / Groovy中读取URL的内容

时间:2010-03-04 09:40:49

标签: java grails groovy

是否有简单的方法来解析整个HTML页面并从该页面的代码中提取特定部分?即我从此site的RSS Feed中获取此网址:http://www.groundreport.com/Sports/Bret-Hart-says-Farewell-to-WWE_4/2918823

我想要做的是解析该链接并从该页面检索相关的图像,标签和其他信息。是否有可以轻松解析HTML代码的Java库或Grails插件?

您对如何处理此任务的建议将受到高度赞赏。

3 个答案:

答案 0 :(得分:1)

您可以试用Tagsoup图书馆 有一个例子here

答案 1 :(得分:0)

我在一年多前简要地看过WebHarvest,看起来很不错。

答案 2 :(得分:0)

如果HTML是格式良好的XML,则可以使用任何Groovy XML解析技术。在实践中,您可能无法保证这一点,因此HTML解析器是更好的选择。在过去,我使用了Jericho HTML parser(一个Java库)并且对结果非常满意。