我正在编写一个java应用程序;使用Rome lib来读取网站RSS文件的RSS源。我可以使用罗马读取和管理订阅源,但我找不到RSS文件的确切URL路径。我知道在html文件中有一行这样的行指定RSS xml文件url:
<link rel="alternate" type="application/rss+xml" href="/rss.ashx" title="Rss feed for yourdomain.com" />
在java中找到RSS文件,url路径的干净方法是什么?
谢谢大家
答案 0 :(得分:3)
您可以在html页面上使用xpath表达式来获取<link />
- 节点并提取href
属性。开箱即用,这只适用于格式良好的XHTML页面。也许您需要在应用xpath之前修复文档。
或者您使用类似http://jsoup.org/
的内容