确定用户感知字符数的正确算法是什么?

时间:2012-02-01 14:33:01

标签: java language-agnostic text unicode diacritics

我的任务是计算输入中感知字符的数量。输入是一个的int(我们可以将其视为int[]),它代表Unicode代码点。

java.text.BreakIterator.getCharacterInstance()是不允许的。 (我的意思是他们的公式是允许的,也是我想要的,但是编织它们的源代码和状态表让我无处可以>。<)

我想知道在给定一些代码点的情况下,计算字形集群数量的正确算法是什么?

Initially,我认为我所要做的就是结合所有出现的事情:

  1. U+0300 – U+036F(结合变音符号)

  2. U+1DC0 – U+1DFF(结合变音符号补充)

  3. U+20D0 – U+20FF(结合符号的变音符号)

  4. U+FE20 - U+FE2F(合并半分)

  5. 进入之前的非变音符号。

    但是我realised在该操作之前,我必须首先删除所有非字符。

    这包括:

    1. U+FDD0 - U+FDEF

    2. 每个平面的最后两个代码点

    3. 但似乎还有更多事情要做。 Unicode.org表示我们需要将U+200C(零宽度非连接符)和U+200D(零宽度连接符)作为连续字符集(source)的一部分。

      除此之外,它还讨论了更多的事情,但整个主题都以抽象的方式处理。例如,间距组合标记的代码点范围是什么,形成hangul音节的 hangul jamo字符

      有没有人知道在给定int[]代码点的情况下计算字素集群数量的正确算法?

1 个答案:

答案 0 :(得分:2)

没有一种适用于所有用途的规范方法,但一个很好的起点是您链接到的Unicode.org页面上的Unicode Grapheme Cluster Boundary算法。基本上,Unicode提供了每个代码点的字形中断属性的数据库,然后描述了一个算法,用于根据指定的字形中断属性确定两个代码点之间是否允许字形中断。

这是我前一段时间玩过的实现的一部分(在C ++中):

bool BoundaryAllowed(char32_t cp, char32_t cp2) {
  // lbp: left break property; rbp: right break property
  auto lbp = get_property_for_codepoint(cp),
       rbp = get_property_for_codepoint(cp2);

  // Do not break between a CR and LF. Otherwise, break before and after
  // controls.
  if ((CR == lbp && LF == rbp)) {
    // The Unicode grapheme boundary algorithm does not handle LFCR new lines
    return false;
  }

  if (Control == lbp || CR == lbp || LF == lbp || Control == rbp || CR == rbp ||
      LF == rbp) {
    return true;
  }

  // Do not break Hangul syllable sequences.
  if ((L == lbp && (L == rbp || V == rbp || LV == rbp || LVT == rbp)) ||
      ((LV == lbp || V == lbp) && (V == rbp || T == rbp)) ||
      ((LVT == lbp || T == lbp) && (T == rbp))) {
    return false;
  }

  // Do not break before extending characters.
  if (Extend == rbp) {
    return false;
  }

  // Do not break before SpacingMarks, or after Prepend characters.
  if (Prepend == lbp || SpacingMark == rbp) {
    return false;
  }

  return true; // Otherwise, break everywhere.
}

为了获得不同类型代码点的范围,您只需要查看Unicode字符数据库。具有字形断点属性的文件(按范围描述它们)大约有1200行:http://www.unicode.org/Public/6.1.0/ucd/auxiliary/

我不确定忽略非字符代码点有多大价值,但如果您的使用需要它,那么您将把它添加到您的实现中。