如何使用Java下载.xml文件并解析网页(例如.html)?

时间:2011-12-18 11:35:33

标签: java xml rss

我有工作要做。首先,我的计划将得到一个论点。这个论点将包含我可以找到RSS Feeds的网站(例如:CnnRssFeeds)。然后,我必须访问这些网站并下载RSS源(我认为这些文件通常是.xml个文件,对吧?)。

之后,我必须将.xml文件保存在磁盘上的文件夹中,最后我必须使用Java的Java库来管理它们。我将提取一些信息,如:标题,作者,描述,链接等。

你可以帮帮我吗?当我想访问每个站点并下载(保存)RSS时,我遇到了一些麻烦(如上所述,它们通常是.xml个文件)

2 个答案:

答案 0 :(得分:3)

对于下载文件,您可以使用this问题的第一个答案。(我试过它可以:))

对于解析XML,你可以使用XPath.XPath用于浏览XML文档中的元素和属性。This XPath教程似乎相当不错

答案 1 :(得分:1)

为什么这么多问号? 如果您知道访问网站,则下载任何资源的内容都没有问题。您的问题是解析HTML并提取RSS提要的URL。使用link代码

将Feed嵌入到HTML页面中

<link rel="alternate" type="application/rss+xml" title="My Feed" href="/feeds/myfeed" />

所以,你必须解析HTML。有几种方法可以做到这一点。例如,您可以使用jsoup或其他您喜欢的。一旦您能够解析HTML,您就可以在我们的示例中提取href属性(/feeds/myfeed)的值。现在只需构建完整的URL(使用/feeds/myfeed连接页面的URL并下载资源。