规范化多字节php字符串中的整数值

时间:2013-07-22 20:12:48

标签: php unicode utf-8 internationalization multibyte

假设我有UTF-8字符串0123456789०१२३४५६७८९০১২৩৪৫৬৭৮৯。我想用它们的ASCII等效替换所有非ASCII整数值,因此提供的字符串将变为012345678901234567890123456789

我将如何做到这一点?

3 个答案:

答案 0 :(得分:3)

如果您的PHP具有php_intl扩展名,则可以使用Transliterate类。

if (version_compare(PHP_VERSION, '5.4.0', '<')) {
    exit ('Transliterator is available on PHP 5.4.0 or later.');
}    
if (!class_exists('Transliterator')) {
    exit ('You need to install php_intl extension.');
}
$any2latin = Transliterator::create("Any-Latin");

$original = "0123456789०१२३४५६७८९০১২৩৪৫৬৭৮৯";
echo $any2latin->transliterate($original), "\n";

我明白了,

012345678901234567890123456789

如果您需要规范化特定语言,我会在下面留下我的初始代码。

$devanagari2latin = Transliterator::create("Devanagari-Latin");
$bengali2latin = Transliterator::create("Bengali-Latin");

$original = "0123456789०१२३४५६७८९০১২৩৪৫৬৭৮৯";
echo $bengali2latin->transliterate($devanagari2latin->transliterate($original)), "\n";

答案 1 :(得分:1)

您想将不同语言的数字转换为标准的阿拉伯语表示吗?我不认为,这种功能存在于标准PHP中。所以,你必须自己写。幸运的是,这并不难。只需创建非标准数字的哈希值,并将它们全部转换为标准值。例如,此脚本将中文数字替换为阿拉伯语:

<?php
$array1 = array(
    '零' => 0,
    '壹' => 1,
    '貳' => 2,
    '參' => 3,
    '肆' => 4,
    '伍' => 5,
    '陸' => 6,
    '柒' => 7,
    '捌' => 8,
    '玖' => 9,
    );

$str = '零壹貳參肆伍陸柒捌玖';
foreach($array1 as $key => $value)
{
    $str = str_replace($key, $value, $str);
}

print $str;

打印:

0123456789

答案 2 :(得分:0)

我设法修复了我原来的方法,我认为这比保持大量转换要好。

function NormalizeDigit($val) {
    $zeros = array (
        0x0660,    // Arabic-Indic
        0x06F0,    // Extended Arabic-Indic
        0x07C0,    // NKO
        0x0966,    // Devanagari
        0x09E6,    // Bengali
        0x0A66,    // Gurmukhi
        0x0AE6,    // Gujarati
        0x0B66,    // Oriya
        0x0BE6,    // Tamil
        0x0C66,    // Telugu
        0x0CE6,    // Kannada
        0x0D66,    // Malayalam
        0x0E50,    // Thai
        0x0ED0,    // Lao
        0x0F20,    // Tibetan
        0x1040,    // Myanmar
        0x1090,    // Myanmar Shan
        0x17E0,    // Khmer
        0x1810,    // Mongolian
        0x1946,    // limbu
        0x19D0,    // NEW TAI LUE
        0x1B50,    // BALINESE
        0x1BB0,    // SUNDANESE
        0x1C40,    // LEPCHA
        0x1C50,    // OL CHIKI
        0xA620,    // VAI
        0xA8D0,    // SAURASHTRA
        0xA900,    // KAYAH LI
        0xAA50,    // CHAM
        0xFF10);   // Full Width Japanese

    foreach ($zeros as $zero) {
        if (($val >= $zero) && ($val <= $zero + 9)) {
            return 0x30 + ($val - $zero);
        }
    }
    return $val;
}

function NormalizeDigits($str) {
    $wide = iconv('UTF-8', 'UTF-16', $str);
    for($i = 2; $i < strlen($wide); $i += 2) {
        $wc = (ord($wide[$i]) << 8) | ord($wide[$i + 1]);
        $wc = NormalizeDigit($wc);
        $wide[$i] = chr($wc >> 8);
        $wide[$i + 1] = chr($wc);
    }
    return iconv('UTF-16', 'UTF-8', $wide);
}