java:查找网站的RSS文件

时间:2011-09-29 06:59:27

标签: java rss

我正在编写一个java应用程序;使用Rome lib来读取网站RSS文件的RSS源。我可以使用罗马读取和管理订阅源,但我找不到RSS文件的确切URL路径。我知道在html文件中有一行这样的行指定RSS xml文件url:

<link rel="alternate" type="application/rss+xml" href="/rss.ashx" title="Rss feed for yourdomain.com" />

在java中找到RSS文件,url路径的干净方法是什么?

谢谢大家

1 个答案:

答案 0 :(得分:3)

您可以在html页面上使用xpath表达式来获取<link /> - 节点并提取href属性。开箱即用,这只适用于格式良好的XHTML页面。也许您需要在应用xpath之前修复文档。

或者您使用类似http://jsoup.org/

的内容