是否有简单的方法来解析整个HTML页面并从该页面的代码中提取特定部分?即我从此site的RSS Feed中获取此网址:http://www.groundreport.com/Sports/Bret-Hart-says-Farewell-to-WWE_4/2918823
我想要做的是解析该链接并从该页面检索相关的图像,标签和其他信息。是否有可以轻松解析HTML代码的Java库或Grails插件?
您对如何处理此任务的建议将受到高度赞赏。
答案 0 :(得分:1)
答案 1 :(得分:0)
我在一年多前简要地看过WebHarvest,看起来很不错。
答案 2 :(得分:0)
如果HTML是格式良好的XML,则可以使用任何Groovy XML解析技术。在实践中,您可能无法保证这一点,因此HTML解析器是更好的选择。在过去,我使用了Jericho HTML parser(一个Java库)并且对结果非常满意。