应用错误收集

确定UTF-32编码的字符串是否具有唯一字符

时间：2015-03-15 01:31:59

标签： java string bitvector utf-32

我有一个关于使用位向量方法的问题，该方法通常用于查找字符串是否具有唯一字符。我已经看到那些解决方案（one of them）适用于ASCII和UTF-16字符集。

然而，UTF-32的相同方法将如何运作？最长的连续位向量可以是Java中的长变量吗？ UTF-16需要1024个这样的变量。如果我们采用相同的方法，它将需要2 ^ 26个长变量（我认为）。是否可以使用位向量来解决这么大的字符集？

2 个答案:

答案 0 :(得分：3)

我认为你在这里缺少一些重要的东西。 UTF-32是Unicode的编码。 Unicode实际上适合21位空间。正如Unicode FAQ所述：

“Unicode标准编码U + 0000..U + 10FFFF范围内的字符，相当于21位代码空间。”

Unicode代码空间之外的任何UTF-32“字符”都是无效的......您应该永远不会以UTF-32编码String查看它们。所以2 ^ 15长就足够了。

实际上，您不太可能在基本语言平面（平面0）之外看到代码点。因此，对于BMP使用位图（即代码高达65535）和使用其他窗格的稀疏数据结构（例如HashSet<Integer>）是有意义的。

您还可以考虑使用BitSet代替使用long或long[]“滚动您自己的”位设置数据结构。

最后，我不应该将您链接到的Q＆amp; A中的某些代码用于寻找UTF-16中的唯一字符，原因如下：

使用类型为long的N个变量和一个switch语句的想法无法扩展。 switch语句的代码变得庞大且难以管理......并且可能比JVM规范可以处理的更大。（编译方法的最大大小是2 ^ 16 - 1字节的字节码，因此对于所有Unicode代码空间实现位向量显然是不可行的。）

最好使用一个long数组，摆脱对switch的需求...这只是因为你有N个不同的long变量
在UTF-16中，每个代码单元（16位值）编码1个代码点（字符）或半个代码点。如果只是创建代码单元的位图，则不会正确检测唯一字符。

答案 1 :(得分：2)

嗯，long包含64位信息，UTF-32字符集包含大约2 ^ 21个元素，这需要2 ^ 21位信息。如果UTF-32数据集使用了所有位，那么它将需要2 ^ 26个长变量。但是，实际上，您只需要2 ^ 13 long个变量（仍然很多）。

如果您假设字符均匀分布在数据集上，则这种低效率是不可避免的，最好的解决方案是使用其他类似Set<Long>之类的东西。但是，英文明文的大部分字符往往在ASCII范围内（0-127），并且大多数西方语言都被限制在特定范围内，因此您可以使用位向量来表示高频区域和{ {1}}或其他与订单无关的高效Set数据结构，用于表示其他区域。