在我最近创建的一个Web应用程序中,当我们的一个用户决定用它来创建完全用日语创建的东西时,我感到非常惊喜。然而,文字被奇怪而笨拙地包裹着。显然浏览器不能很好地处理包装日文文本,可能是因为它包含很少的空格,因为每个字符构成一个完整的单词。然而,这并不是一个真正安全的假设,因为有些单词是由几个字符构成的,将一些字符组分成不同的行是不安全的。
谷歌搜索并没有真正帮助我更好地理解这个问题。在我看来,人们需要一本坚不可摧的模式字典,并假设其他地方都可以安全破解。但是我担心我对日语知之甚少,所以我从他的一些搜索中理解的所有单词都很复杂。
你会如何解决这个问题?您是否知道已经存在的任何库或算法以令人满意的方式处理此问题?
答案 0 :(得分:12)
日语自动换行规则称为kinsoku shori,并且非常简单。他们实际上主要关注的是标点符号,并且不会试图保持文字完整无缺。
我刚用一本日本小说检查过,实际上,在音节假名的两个单词和由多个中文表意文字组成的单词都包含在中间词而不受惩罚。
答案 1 :(得分:0)
下面列出的项目对于解决日语自动换行(或换句话说,断字)很有用。
mikan采用基于正则表达式的方法,而budou使用自然语言处理。