在PHP中将UTF8 IAST编码转换为SLP

时间:2013-11-09 11:19:04

标签: php string

我正在尝试编写一个脚本,该脚本将查看该字符串是否具有特定的变音符号,并将其转换为不同的音译方案。 (两者都是梵语的音译方案)。

这是我的代码。

$first = $_POST["first"];
$second = $_POST['second'];
$iast = array("a","A","ā","Ā","i","I","ī","Ī","u","U","ū","Ū","ṛ","Ṛ","ṝ","Ṝ","ḷ","Ḷ","ḹ","Ḹ","e","E","ai","Ai","o","O","au","Au","ṃ","Ṃ","ḥ","Ḥ","k","K","c","C","ṭ","Ṭ","t","T","p","P","kh","Kh","ch","Ch","ṭh","Ṭh","th","Th","ph","Ph","g","G","j","J","ḍ","Ḍ","d","D","b","B","gh","Gh","jh","Jh","ḍh","Ḍh","dh","Dh","bh","Bh","ṅ","Ṅ","ñ","Ñ","ṇ","Ṇ","n","N","m","M","y","Y","r","R","l","L","v","V","ś","Ś","ṣ","Ṣ","s","S","h","H");
$slp  = array("a","a","A","A","i","i","I","I","u","u","U","U","f","f","F","F","x","x","X","X","e","e","E", "E", "o","o","O", "O", "M","M","H","H","k","k","c","c","w","w","t","t","p","p","K", "K", "C", "C", "W", "W", "T", "T", "P", "P", "g","g","j","j","q","q","d","d","b","b","G", "G", "J", "J", "Q", "Q", "D", "D", "B", "B", "N","N","Y","Y","R","R","n","n","m","m","y","Y","r","r","l","l","v","v","S","S","z","z","s","s","h","h");

if (preg_match('/[āĀīĪūŪṛṚṝṜḷḶḹḸṃṂḥḤṭṬḍḌṅṄñÑṇṆśŚṣṢV]/',$first) || preg_match('/[āĀīĪūŪṛṚṝṜḷḶḹḸṃṂḥḤṭṬḍḌṅṄñÑṇṆśŚṣṢV]/',$second))
{
    $first = str_replace($iast,$slp,$first);
    $second = str_replace($iast,$slp,$second);
}

我将HTML中的$ first和$ second作为用户输入。

问题: 当我进入     $第一= “dhātṛ”; 和     $ second =“aṃśaḥ”; 输出是“DAtf”+“amsah”.. 从阵列中可以看出所需的输出是“DAtf”+“aMSaH”。

我仍然无法看到它如何识别ṛ并将其正确转换为f? 并且无法取代m和h以下的点 - >分别为M和H.

1 个答案:

答案 0 :(得分:0)

问题在于翻译阵列的顺序。 str_replace()使用哑算法:使用替换数组中的匹配值替换搜索数组中的每个找到的字符,从两个数组中的第一个值开始。

在某些时候,“ṃ”被替换为大写的“M”。稍后用小写“m”替换大写“M”。因为str_replace()不记得这个M实际上是被替换的“ṃ”,所以它确实会再次转换它。

您可以通过重新安排替换阵列来摆脱这种情况。如果您首先翻译“简单”字母,稍后翻译变音字母,则可以避免此陷阱。通过将“m”和“M”的转换移动到数组的前面,我成功地测试了“ṃ”的正确翻译。

另一方面,你可能不想开始重新排列数组中的值,并且如果str_replace()实际上对字符有效,则执行所有检查。算法必须只分析每个字符一次并将其转换为适当的音译。 strtr()似乎是可以执行此操作的PHP函数,但不幸的是它只能用于单字节编码。并且没有mb_strtr()功能可用。