从HTML源中提取String

时间:2015-04-19 08:37:13

标签: java html string

您希望从源代码中提取HTML标记之间的字符串,但我使用下面给出的代码收到错误。有人可以帮我解决错误的原因吗?

Pattern pattern = Pattern.compile("/\<body[^>]*\>([^]*)\<\/body/");
Matcher matcher = pattern.matcher(s1);
while (matcher.find()) {
  System.out.println( "Found value: " + matcher.group(1).trim() );
}

我得到的错误是:&#34;无效的转义序列&#34;

由于

1 个答案:

答案 0 :(得分:2)

不要使用正则表达式解析html文件。我建议你使用jsoup解析器。

String html = "<html><body><h1> Hello, World! </h1></body></html>";
Document doc = Jsoup.parse(html);
String text = doc.body().text();
System.out.println(text);

输出:

Hello, World!