我想计算给定字符串中的单词数。例如,我们正在解析一个大型文本文档。
我用过这种方法
noOfWords = countedStegoText.trim().split(" +").length;
但是如果文本包含两种空格(例如“ U + 0020”和“ U + 205F”)怎么办?在这种情况下,我如何计算单词数?
答案 0 :(得分:0)
.split(...)可以采用正则表达式,只需构建一个包含所有匹配字符的表达式即可。
例如:
"hello world-foo_bar".split("[ |\\-|_]")
得到长度为4的数组
["hello", "world", "foo", "bar"]
要在RegEx中使用Unicode字符,请使用\ u ####,因此您正在寻找类似的内容:
countedStegoText.trim().split("[\u0020|\u205F]").length