连字符库似乎是非常受欢迎的免费方式,可以在您的应用中使用连字符。
连字符向量是什么意思?
我正在运行附加到库源代码的示例。 示例输出:
hibernate // input word
030412000 // output hyphenation vector
hi=ber=nate // hyphen points
- hi=bernate
- hiber=nate
向量中的奇数表示连字符点。但是,所有这些价值观意味着什么?
答案 0 :(得分:3)
LászlóNémeth详细描述了OpenOffice's documentation中的算法。
该库使用Frank M. Liang开发的算法(“Com-pu-ter的字词表示”):digrams,trigrams和较长模式中的所有字母都分配了数字值来表示它是用于连字符的“通常”位置(奇数)或“不寻常”位置(偶数)。数字越大,重要性越大 - 一个模式几乎不会在更大的偶数上被破坏,并且几乎总是在更大的奇数上。数字序列在预连词的语料库中进行统计学确定。
请注意,这些数字适用于两个字符之间的位置。更好的表示法是
h i b e r n a t e
0 3 0 4 1 2 0 0 (0)
(最后0
已过时)。