Question

我试图了解如何利用APOD档案中的HTML数据。我的最终目标是最终得到一个字符串的ArrayList，如下所示：

来自此网址view-source:http://apod.nasa.gov/apod/archivepix.html

获取每个2015 February 26: <a href="ap150226.html">Love and War by Moonlight</a><br>

并将它们放入ArrayList

我更习惯于使用JSON，甚至是来自其他API的XML - 通过HTML解析看起来很难，所以如果有人能指出我正确的方向，它会非常有用对此。

谢谢！

Answer 1

看看这些名为jsoup的HTML Parser。这将使您的任务变得简单。

这个link将有助于从html中提取值。

例如： -

Document doc = Jsoup.connect("http://apod.nasa.gov/apod/archivepix.html").get();
Elements links = content.getElementsByTag("b");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

根据需要进行解析。

Answer 2

也许尝试使用JAXP因为你知道它包含你想要的数据是什么元素。 http://docs.oracle.com/javase/tutorial/jaxp/

如何将特定的HTML项目放入字符串的ArrayList中

2 个答案: