如何标准化日语,以便我可以对Lua中的禁止词进行单词检查?

时间:2013-02-26 11:42:54

标签: unicode lua word cjk

有太多组合的半角,全角,片假名,平假名,汉字,并使用替代字符(例如そ而不是ん)。

Python有一个名为jcconv的软件包可以帮助我做我需要做的事情。我想将字符串转换为标准格式,以便我可以查看受限制的单词列表。

Lua可以吗?

1 个答案:

答案 0 :(得分:0)

为了能够在平假名,片假名和半宽片假名之间转换字符串,您可以将相应的字母字符存储在不同的表中,并在它们之间添加映射(通过索引或按键)。

这也是jcconv这样做的方式,根据来源(link)判断。

例如,如果您想将平假名转换为片假名,您可以这样做:

  • 设置一个表,其中每个元素都定义为[hiragana] = katakana
  • 按字符迭代字符串并替换是否是这种情况(我发现了一个完全符合这一要求的小库:utf8.lua提供了一个接受映射表的替换函数。)