Question

我有一个带有HTML网站的StringBuffer，并希望获得本网站的一些特定信息。

1行是f.e。：

img class =＆＃34; a＆＃34;数据-SRC =＆＃34; HTTP：//test.com" SRC =＆＃34;＆＃34; /＆LT;

我想要一个带＆＃34; http://test.com＆＃34;。

的字符串

是否有可以帮助我的功能/解析器？

Answer 1

Jsoup会做的伎俩，只需做一点css就可以得到你需要的任何元素。

Document doc = Jsoup.connect("http://test.com").get();
//DOM Selector CSS String see jsoup docs.
//This will select all image elements with the a class similar to css. IE: img.a
//http://jsoup.org/cookbook/extracting-data/selector-syntax
//Get all elements that are images with class of a

Elements images = doc.select("img.a");

for (Element image : images) {
//Get the url of the image

String url = image.attr("data-src");;

}

Answer 2

这是一个常见问题，您可以通过快速Google搜索找到答案。

查看正则表达式（正则表达式），因为您可能不止一次需要它。

Answer 3

考虑JSoup框架。

有"Selector"机制可以查找和操作html元素。

Java - 如何从HTML站点解析信息？

3 个答案: