识别HTML源代码中的RSS链接

时间:2015-05-09 12:52:52

标签: java rss html-parser

是否有识别HTML文本代码的RSS链接的方法。我需要在JAVA中编码以从HTML源代码中提取此链接,但我无法找到不同网站如何在网络的HTML代码中嵌入RSS链接的单一方式。有些网站使用" type = application / rss + xml"但不是全部,例如discovery.com和cnn.com。有什么方法可以为任何网站编码吗?

1 个答案:

答案 0 :(得分:0)

我暂时解决了我的问题,但如果有人能告诉我更简洁有效的代码,我将不胜感激。我认为我的代码不是那么有效,它只是一个解决小问题的大循环。我的第一部分代码来自user911236在stackoverflow上的帖子。

我的代码:

public static String RSSLinkRetriever(String url) {

    String rssUrl = "";    
    try{
          Document doc = Jsoup.connect(url).get();

          Elements links = doc.select("link[type=application/rss+xml]");
          if (links.size() > 0) {
              rssUrl = links.get(0).attr("abs:href").toString();
          }
          else if(rssURLNews(url) != ""){

            rssUrl = rssURLNews(url);
          }
          else if(rssURLrss(url) != "")
              rssUrl = rssURLrss(url);
          else{
                rssUrl = "No URL found";
            }
        }
        catch (IOException ex) {
          Logger.getLogger(RSSReader.class.getName()).log(Level.SEVERE, null, ex);
        }

        return rssUrl;

}

public static String rssURLNews(String url){

    Document doc;
    String str = "";
    try {
        doc = Jsoup.connect(url).get();

        // get all links
        Elements links = doc.select("a[href]");
        for (Element link : links) {
            if(link.text().equals("News")){
                str = RSSLinkRetriever(link.attr("href"));
            }
         }

    } catch (IOException e) {
        e.printStackTrace();
    }
    return str;
}

public static String rssURLrss(String url) {

    Document doc;
    String str = "";
    try {
        doc = Jsoup.connect(url).get();

        // get all links
        Elements links = doc.select("a[href]");
        for (Element link : links) {
            if(link.text().equals("RSS")){
                str = link.attr("href");
            }
         }

    } catch (IOException e) {
        e.printStackTrace();
    }
    return str;
}