自动连接任意文本

时间:2014-12-31 23:39:36

标签: language-agnostic linguistics

自动连字面临哪些挑战?看起来你可以一字一句地画画,当线条的长度超过视口的长度(或者我们将文本包裹起来的任何东西)时断开,在尽可能多的字符之后放置连字符(在至少两个字符适合且单词至少为四个字符),跳过已经包含连字符的单词(不要求单词 连字符)。

但我注意到Firefox和IE需要一本字典才能用CSS hyphens进行连字。这似乎意味着我们可以在哪里放置连字符还有其他问题。

这些是什么问题?是否存在英语或它们只存在于其他语言中?

1 个答案:

答案 0 :(得分:0)

您有所有语言的这些问题。正如已经指出的那样,您只能在分割中产生有意义的标记的连字符。例如,您不希望拆分像“wr-ong”这样的单词。

这可能是也可能不是音节,而在大多数语言(包括英语)中都是如此。但重要的是,你不能仅仅通过一些简单的规则就可以轻松地将其固定下来。您需要考虑很多音韵才能获得高度准确的结果,这些规则因语言而异。

有了这样的背景,我就会明白为什么人们会选择一本字典,坦率地说,我自己也是一名计算语言学家,这也是我可能会选择的。

如果你想要自动解决方案,我建议你做一些关于音节英语音韵学或所谓的音节学的研究。您可能希望从维基百科上的这篇文章开始:

Wikipedia - Syllabification