Question

您希望从源代码中提取HTML标记之间的字符串，但我使用下面给出的代码收到错误。有人可以帮我解决错误的原因吗？

Pattern pattern = Pattern.compile("/\<body[^>]*\>([^]*)\<\/body/");
Matcher matcher = pattern.matcher(s1);
while (matcher.find()) {
  System.out.println( "Found value: " + matcher.group(1).trim() );
}

我得到的错误是：＆＃34;无效的转义序列＆＃34;

由于

Answer 1

不要使用正则表达式解析html文件。我建议你使用jsoup解析器。

String html = "<html><body><h1> Hello, World! </h1></body></html>";
Document doc = Jsoup.parse(html);
String text = doc.body().text();
System.out.println(text);

输出：

Hello, World!

从HTML源中提取String

1 个答案: