我有兴趣编写一个PHP脚本(我确实欢迎与语言无关的建议),这些脚本将用英语(phoenetically)写成的句子或单词翻译成另一种语言的脚本。因为我看的是用电音写的英语(即通过耳朵):我必须处理同一个单词的变体拼写。
假设罗马化没有标准(例如,中文,你有简化的韦德等)
有没有人对我可以从哪里开始有任何建议?
编辑:我这样做纯粹是出于教育目的,我最初的印象是,为了找出变体拼写之间的联系(可以在IM消息语料库中找到,Facebook帖子写在罗马化的语言形式),你需要某种机器学习工具。但是,我想知道我是否走在正确的轨道上,并且我想要了解下一步我应该研究什么以使其工作(例如:我应该研究哪种机器学习工具?) 。答案 0 :(得分:3)
Derick Rethans尝试Transliteration PHP Extension:
此扩展程序允许您在非拉丁语中音译文本 拉丁字符的字符(如中文,西里尔文,希腊语等)。 除了音译,扩展还包含过滤器 大写和小写拉丁语,西里尔语和希腊语,并表现特别 音译的形式,如转换连字符 挪威语“æ”到“ae”并标准化标点和间距。
看来他已经开始了你正在寻找的东西! (除非你想处理英语 - >拉丁语,但至少这涉及其他语言的脚本。:))
答案 1 :(得分:2)
我至少知道日语,你有一定数量的字母组合。
所以,你可以做一些像这样的匹配数组
array(
'oo' => 'おう',
'oh' => 'おう',
'ou' => 'おう'
)
当然,继续,并确保你不匹配'su',当它应该是'tsu'。
当然,这只是一个起点。
机器学习对中国人来说可能是最实用的......但这是平假名的一个粗略开始:https://gist.github.com/1154969