如何通过Java程序阅读网页内容?

时间:2011-08-19 22:38:03

标签: java web-scraping

我打算编写一个Java程序,从网站(http://www.doviz.com)读取一些汇率,并想知道什么是最好的方法只能阅读(或阅读整个和剥离我需要的内容。

感谢任何帮助。

2 个答案:

答案 0 :(得分:6)

我的建议是使用Jsoup

使用类似css / jquery的语法解析外部内容非常容易

// Only one line to parse an external content
Document doc = Jsoup.connect("http://jsoup.org").get();

// "Javascript-like" syntax
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

// "Jquery/Css-like" syntax
Elements resultLinks = doc.select("h3.r > a");
Elements pngs = doc.select("img[src$=.png]");

只需将jsoup.jar库添加到类路径中即可享受! 开放源代码,当然可以免费使用。

答案 1 :(得分:1)

我建议您实现网页的RSS阅读机制(以编程方式),并使用标准解析器提取RSS xml的内容。