应用错误收集

在Grails / Groovy中读取URL的内容

时间：2010-03-04 09:40:49

标签： java grails groovy

是否有简单的方法来解析整个HTML页面并从该页面的代码中提取特定部分？即我从此site的RSS Feed中获取此网址：http://www.groundreport.com/Sports/Bret-Hart-says-Farewell-to-WWE_4/2918823

我想要做的是解析该链接并从该页面检索相关的图像，标签和其他信息。是否有可以轻松解析HTML代码的Java库或Grails插件？

您对如何处理此任务的建议将受到高度赞赏。

3 个答案:

答案 0 :(得分：1)

您可以试用Tagsoup图书馆有一个例子here。

答案 1 :(得分：0)

我在一年多前简要地看过WebHarvest，看起来很不错。

答案 2 :(得分：0)

如果HTML是格式良好的XML，则可以使用任何Groovy XML解析技术。在实践中，您可能无法保证这一点，因此HTML解析器是更好的选择。在过去，我使用了Jericho HTML parser（一个Java库）并且对结果非常满意。