计算带有html标签的字符串中的单词数量

时间:2016-07-04 14:02:54

标签: java

请考虑以下带有html标记的字符串

"<p>Article</p> <p>Article</p> <p>Article</p> <p>&nbsp</p>";

现在我要计算上面提到的字符串中包含的字数

它产生worong输出

而不是3个字数,它显示4个字数

它认为<p>&nbsp</p>是错误的单词

请更正以下程序

String str = "<p>Article</p> <p>Article</p> <p>Article</p> <p>&nbsp</p>";
org.jsoup.nodes.Document dom = Jsoup.parse(str);
String str2 = dom.text();
System.out.println(str2.split(" ").length);

我应该做些什么改变以获得正确的输出?

提前致谢。

1 个答案:

答案 0 :(得分:0)

正如Benjamin在评论中提到的那样,你应该添加一个分号()。如果你不添加它,它就无法根据指令解析它,因为它被认为是“一个元素”,你不需要它。