Java - 如何从HTML站点解析信息?

时间:2014-07-24 05:40:15

标签: java html parsing servlets

我有一个带有HTML网站的StringBuffer,并希望获得本网站的一些特定信息。

1行是f.e。:

  

img class =" a"数据-SRC =" HTTP://test.com" SRC ="" /<

我想要一个带" http://test.com"。

的字符串

是否有可以帮助我的功能/解析器?

3 个答案:

答案 0 :(得分:0)

Jsoup会做的伎俩,只需做一点css就可以得到你需要的任何元素。

Document doc = Jsoup.connect("http://test.com").get();
//DOM Selector CSS String see jsoup docs.
//This will select all image elements with the a class similar to css. IE: img.a
//http://jsoup.org/cookbook/extracting-data/selector-syntax
//Get all elements that are images with class of a

Elements images = doc.select("img.a");

for (Element image : images) {
//Get the url of the image

String url = image.attr("data-src");;

}

答案 1 :(得分:0)

这是一个常见问题,您可以通过快速Google搜索找到答案。

查看正则表达式(正则表达式),因为您可能不止一次需要它。

答案 2 :(得分:0)

考虑JSoup框架。

"Selector"机制可以查找和操作html元素。