连字符库:“连字符向量”是什么意思?

时间:2014-12-02 08:35:43

标签: hyphen hyphenation

连字符库似乎是非常受欢迎的免费方式,可以在您的应用中使用连字符。

连字符向量是什么意思?

我正在运行附加到库源代码的示例。 示例输出:

hibernate   // input word
030412000   // output hyphenation vector
hi=ber=nate  // hyphen points
 - hi=bernate
 - hiber=nate

向量中的奇数表示连字符点。但是,所有这些价值观意味着什么?

1 个答案:

答案 0 :(得分:3)

LászlóNémeth详细描述了OpenOffice's documentation中的算法。

该库使用Frank M. Liang开发的算法(“Com-pu-ter的字词表示”):digrams,trigrams和较长模式中的所有字母都分配了数字值来表示它是用于连字符的“通常”位置(奇数)或“不寻常”位置(偶数)。数字越大,重要性越大 - 一个模式几乎不会在更大的偶数上被破坏,并且几乎总是在更大的奇数上。数字序列在预连词的语料库中进行统计学确定。

请注意,这些数字适用于两个字符之间的位置。更好的表示法是

h i b e r n a t e
 0 3 0 4 1 2 0 0 (0)

(最后0已过时)。