您希望从源代码中提取HTML标记之间的字符串,但我使用下面给出的代码收到错误。有人可以帮我解决错误的原因吗?
Pattern pattern = Pattern.compile("/\<body[^>]*\>([^]*)\<\/body/");
Matcher matcher = pattern.matcher(s1);
while (matcher.find()) {
System.out.println( "Found value: " + matcher.group(1).trim() );
}
我得到的错误是:&#34;无效的转义序列&#34;
由于
答案 0 :(得分:2)
不要使用正则表达式解析html文件。我建议你使用jsoup
解析器。
String html = "<html><body><h1> Hello, World! </h1></body></html>";
Document doc = Jsoup.parse(html);
String text = doc.body().text();
System.out.println(text);
输出:
Hello, World!