计算给定的任何口语字符串中可显示字符的数量

时间:2019-05-29 05:48:44

标签: java text utf linguistics

我需要编写一个Java代码,该代码将返回给定字符串中存在的可显示字符的数量,该字符串可以是任何口语,例如中文,日语,英语,德语,北印度语等。

我正在获取一个文件以及语言环境信息,文件包含属于语言环境的文本。因此,我需要验证文件,验证之一是计算可显示的宪章数量,因为此文件将被系统占用,这会在有限的空间内呈现该文件(string.length对我不起作用)。

我已推荐:

Java change áéőűú to aeouu

Is there a way to get rid of accents and convert a whole string to regular letters?

https://docs.oracle.com/javase/6/docs/api/java/lang/String.html#codePointCount%28int,%20int%29

Apache的

StringUtils.stripAccents对我来说很有希望,但是在开发人员文档中它提到“请注意,连字将保留原样。”因此,我不确定此限制在我的用例中起什么作用。

任何人都可以解决此问题或使用StringUtils.stripAccents进行计数。因为我的用例主要是支持多种语言,所以我需要一个有已知限制的通用解决方案。

0 个答案:

没有答案