从我的博客获取数据的最佳方式

时间:2014-08-16 20:06:37

标签: java android web-crawler

如何根据HTML从自己的博客获取数据的最佳方式?

我只是在博客上发布新闻。每个新闻都在div和#34; news"。我想每小时检查我在Android上的应用程序是否有新闻出现。我不想使用RSS和XML。

最好的方法是什么?

1 个答案:

答案 0 :(得分:3)

JSoup是解决方案。

  

jsoup是一个用于处理真实HTML的Java库。它提供   一个非常方便的API,用于提取和操作数据,使用   最好的DOM,CSS和类似jquery的方法。

     

jsoup实现了WHATWG HTML5规范,并将HTML解析为   与现代浏览器相同的DOM。

我相信this将作为起点:

String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "<a href="http://example.com"><b>example</b></a>"
String linkInnerH = link.html(); // "<b>example</b>"  

<强>更新
正如hexafraction所建议的那样,您可以使用RSS。它是一种定期更改传送网络内容(如新闻等)的格式,并且通常被许多网站用于帮助其用户保持最新状态。它以XML格式提供有关您的内容的信息,如标题,描述,链接等,您可以解析这些信息以向用户显示数据。

编写XML解析器来解析RSS feed比使用JSoup解析HTML要容易得多。 This about.com article将帮助您将RSS添加到您的网站。