我试图了解如何利用APOD档案中的HTML数据。我的最终目标是最终得到一个字符串的ArrayList,如下所示:
来自此网址view-source:http://apod.nasa.gov/apod/archivepix.html
获取每个2015 February 26: <a href="ap150226.html">Love and War by Moonlight</a><br>
并将它们放入ArrayList
我更习惯于使用JSON,甚至是来自其他API的XML - 通过HTML解析看起来很难,所以如果有人能指出我正确的方向,它会非常有用对此。
谢谢!
答案 0 :(得分:2)
看看这些名为jsoup的HTML Parser。 这将使您的任务变得简单。
这个link将有助于从html中提取值。
例如: -
Document doc = Jsoup.connect("http://apod.nasa.gov/apod/archivepix.html").get();
Elements links = content.getElementsByTag("b");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}
根据需要进行解析。
答案 1 :(得分:0)
也许尝试使用JAXP因为你知道它包含你想要的数据是什么元素。 http://docs.oracle.com/javase/tutorial/jaxp/