应用错误收集

时间：2011-12-18 11:35:33

标签： java xml rss

我有工作要做。首先，我的计划将得到一个论点。这个论点将包含我可以找到RSS Feeds的网站（例如：CnnRssFeeds）。然后，我必须访问这些网站并下载RSS源（我认为这些文件通常是.xml个文件，对吧？）。

之后，我必须将.xml文件保存在磁盘上的文件夹中，最后我必须使用Java的Java库来管理它们。我将提取一些信息，如：标题，作者，描述，链接等。

你可以帮帮我吗？当我想访问每个站点并下载（保存）RSS时，我遇到了一些麻烦（如上所述，它们通常是.xml个文件）

答案 0 :(得分：3)

对于下载文件，您可以使用this问题的第一个答案。（我试过它可以：））

对于解析XML，你可以使用XPath.XPath用于浏览XML文档中的元素和属性。This XPath教程似乎相当不错

答案 1 :(得分：1)

为什么这么多问号？如果您知道访问网站，则下载任何资源的内容都没有问题。您的问题是解析HTML并提取RSS提要的URL。使用link代码

将Feed嵌入到HTML页面中

<link rel="alternate" type="application/rss+xml" title="My Feed" href="/feeds/myfeed" />

所以，你必须解析HTML。有几种方法可以做到这一点。例如，您可以使用jsoup或其他您喜欢的。一旦您能够解析HTML，您就可以在我们的示例中提取href属性（/feeds/myfeed）的值。现在只需构建完整的URL（使用/feeds/myfeed连接页面的URL并下载资源。