用于删除重音的自定义功能不适用于数组键

时间:2014-09-30 00:55:08

标签: php csv diacritics

我有一个功能,可以删除用英语以不同语言编写的单词的重音

public static function removeAccents($str) {
    $a = array('À', 'Á', 'Â', 'Ã', 'Ä', 'Å', 'Æ', 'Ç', 'È', 'É', 'Ê', 'Ë', 'Ì', 'Í', 'Î', 'Ï', 'Ð', 'Ñ', 'Ò', 'Ó', 'Ô', 'Õ', 'Ö', 'Ø', 'Ù', 'Ú', 'Û', 'Ü', 'Ý', 'ß', 'à', 'á', 'â', 'ã', 'ä', 'å', 'æ', 'ç', 'è', 'é', 'ê', 'ë', 'ì', 'í', 'î', 'ï', 'ñ', 'ò', 'ó', 'ô', 'õ', 'ö', 'ø', 'ù', 'ú', 'û', 'ü', 'ý', 'ÿ', 'Ā', 'ā', 'Ă', 'ă', 'Ą', 'ą', 'Ć', 'ć', 'Ĉ', 'ĉ', 'Ċ', 'ċ', 'Č', 'č', 'Ď', 'ď', 'Đ', 'đ', 'Ē', 'ē', 'Ĕ', 'ĕ', 'Ė', 'ė', 'Ę', 'ę', 'Ě', 'ě', 'Ĝ', 'ĝ', 'Ğ', 'ğ', 'Ġ', 'ġ', 'Ģ', 'ģ', 'Ĥ', 'ĥ', 'Ħ', 'ħ', 'Ĩ', 'ĩ', 'Ī', 'ī', 'Ĭ', 'ĭ', 'Į', 'į', 'İ', 'ı', 'IJ', 'ij', 'Ĵ', 'ĵ', 'Ķ', 'ķ', 'Ĺ', 'ĺ', 'Ļ', 'ļ', 'Ľ', 'ľ', 'Ŀ', 'ŀ', 'Ł', 'ł', 'Ń', 'ń', 'Ņ', 'ņ', 'Ň', 'ň', 'ʼn', 'Ō', 'ō', 'Ŏ', 'ŏ', 'Ő', 'ő', 'Œ', 'œ', 'Ŕ', 'ŕ', 'Ŗ', 'ŗ', 'Ř', 'ř', 'Ś', 'ś', 'Ŝ', 'ŝ', 'Ş', 'ş', 'Š', 'š', 'Ţ', 'ţ', 'Ť', 'ť', 'Ŧ', 'ŧ', 'Ũ', 'ũ', 'Ū', 'ū', 'Ŭ', 'ŭ', 'Ů', 'ů', 'Ű', 'ű', 'Ų', 'ų', 'Ŵ', 'ŵ', 'Ŷ', 'ŷ', 'Ÿ', 'Ź', 'ź', 'Ż', 'ż', 'Ž', 'ž', 'ſ', 'ƒ', 'Ơ', 'ơ', 'Ư', 'ư', 'Ǎ', 'ǎ', 'Ǐ', 'ǐ', 'Ǒ', 'ǒ', 'Ǔ', 'ǔ', 'Ǖ', 'ǖ', 'Ǘ', 'ǘ', 'Ǚ', 'ǚ', 'Ǜ', 'ǜ', 'Ǻ', 'ǻ', 'Ǽ', 'ǽ', 'Ǿ', 'ǿ', 'Ά', 'ά', 'Έ', 'έ', 'Ό', 'ό', 'Ώ', 'ώ', 'Ί', 'ί', 'ϊ', 'ΐ', 'Ύ', 'ύ', 'ϋ', 'ΰ', 'Ή', 'ή');
    $b = array('A', 'A', 'A', 'A', 'A', 'A', 'AE', 'C', 'E', 'E', 'E', 'E', 'I', 'I', 'I', 'I', 'D', 'N', 'O', 'O', 'O', 'O', 'O', 'O', 'U', 'U', 'U', 'U', 'Y', 's', 'a', 'a', 'a', 'a', 'a', 'a', 'ae', 'c', 'e', 'e', 'e', 'e', 'i', 'i', 'i', 'i', 'n', 'o', 'o', 'o', 'o', 'o', 'o', 'u', 'u', 'u', 'u', 'y', 'y', 'A', 'a', 'A', 'a', 'A', 'a', 'C', 'c', 'C', 'c', 'C', 'c', 'C', 'c', 'D', 'd', 'D', 'd', 'E', 'e', 'E', 'e', 'E', 'e', 'E', 'e', 'E', 'e', 'G', 'g', 'G', 'g', 'G', 'g', 'G', 'g', 'H', 'h', 'H', 'h', 'I', 'i', 'I', 'i', 'I', 'i', 'I', 'i', 'I', 'i', 'IJ', 'ij', 'J', 'j', 'K', 'k', 'L', 'l', 'L', 'l', 'L', 'l', 'L', 'l', 'l', 'l', 'N', 'n', 'N', 'n', 'N', 'n', 'n', 'O', 'o', 'O', 'o', 'O', 'o', 'OE', 'oe', 'R', 'r', 'R', 'r', 'R', 'r', 'S', 's', 'S', 's', 'S', 's', 'S', 's', 'T', 't', 'T', 't', 'T', 't', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'W', 'w', 'Y', 'y', 'Y', 'Z', 'z', 'Z', 'z', 'Z', 'z', 's', 'f', 'O', 'o', 'U', 'u', 'A', 'a', 'I', 'i', 'O', 'o', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'A', 'a', 'AE', 'ae', 'O', 'o', 'Α', 'α', 'Ε', 'ε', 'Ο', 'ο', 'Ω', 'ω', 'Ι', 'ι', 'ι', 'ι', 'Υ', 'υ', 'υ', 'υ', 'Η', 'η');
    return str_replace($a, $b, $str);
}

它有效:

echo removeAccents("ÁNDALE ÁNDALE!");
// Echoes: ANDALE ANDALE

--------真正的问题是: 我有一个关联数组,它的一些键具有重音,因为它来自SCV文件,并且所有CSV文件都有一些带重音的列。列名可以是“UBICACIÓN”。

问题在于,当我试图删除该键的重音时,它不起作用:

 foreach($row as $key=>$value) {
     echo "KEY: ".trim(Utils::removeAccents($key))." - VALUE: ".$value."<br/>";
 }

为每一行回应这样的事情:

KEY: REFERENCIA - VALUE: 3500000000
KEY: DESCRIPCIÓN - VALUE: LLANTA 160/60ZR-17 PILOT ROAD2
KEY: SALDO - VALUE: #N/A
KEY: UBICACIÓN - VALUE: #N/A
KEY: COST - VALUE: 243.815

它应该是:

KEY: REFERENCIA - VALUE: 3500000000
KEY: DESCRIPCION - VALUE: LLANTA 160/60ZR-17 PILOT ROAD2
KEY: SALDO - VALUE: #N/A
KEY: UBICACION - VALUE: #N/A
KEY: COST - VALUE: 243.815

正如您所看到的那样,其中两个按键仍有重音。我不知道是什么问题,如果你把任何字符串放在那里,并且不是来自我想要处理的数组,那么该函数是有效的。

可能与Charset有关吗?

编辑1 - 如果我将它与主阵列一起使用,这就是var_dump所显示的内容(显然只有第一行,那里有数千个):

array (size=38688)
  0 => 
    array (size=8)
      'REFERENCIA' => string '' (length=0)
      'DESCRIPCIÓN' => string '' (length=0)
      'SALDO' => string '' (length=0)
      'UBICACIÓN' => string '' (length=0)
      'COST' => string '' (length=0)
      ' COSTO MAS IVA ' => string '' (length=0)
      ' PRECIO P ' => string '' (length=0)
      '' => string '' (length=0)
  1 => 
    array (size=8)
      'REFERENCIA' => string '3500000000' (length=10)
      'DESCRIPCIÓN' => string 'LLANTA 160/60ZR-17 PILOT ROAD2' (length=30)
      'SALDO' => string '#N/A' (length=4)
      'UBICACIÓN' => string '#N/A' (length=4)
      'COST' => string '243.815' (length=7)
      ' COSTO MAS IVA ' => string ' $ 331.588,40 ' (length=14)
      ' PRECIO P ' => string ' $ 384.642,54 ' (length=14)
      '' => string '' (length=0)
  2 => 
    array (size=8)
      'REFERENCIA' => string '10779000000' (length=11)
      'DESCRIPCIÓN' => string 'LLANTA 120/70ZR18 59W PIL ROA2' (length=30)
      'SALDO' => string '#N/A' (length=4)
      'UBICACIÓN' => string '#N/A' (length=4)
      'COST' => string '218.900' (length=7)
      ' COSTO MAS IVA ' => string ' $ 297.704,00 ' (length=14)
      ' PRECIO P ' => string ' $ 345.336,64 ' (length=14)
      '' => string '' (length=0)

编辑2 - 这是CSV文件的部分内容

REFERENCIA;DESCRIPCION;SALDO;UBICACIÓN;COST; COSTO MAS IVA ; PRECIO P ;
;;;;;;;
3500000000;LLANTA 160/60ZR-17 PILOT ROAD2;#N/A;#N/A;243.815; $ 331.588,40 ; $ 384.642,54 ;
10779000000;LLANTA 120/70ZR18 59W PIL ROA2;#N/A;#N/A;218.900; $ 297.704,00 ; $ 345.336,64 ;
01CD1ML00000;BUSO CREMALLERA D LASER M T-L;#N/A;#N/A;50.000; $ 68.000,00 ; $ 78.880,00 ;
01CD1MM00000;BUSO CREMALLERA D LASER M T-M;#N/A;#N/A;50.000; $ 68.000,00 ; $ 78.880,00 ;
01CD1MS00000;BUSO CREMALLERA D LASER M T-S;#N/A;#N/A;50.000; $ 68.000,00 ; $ 78.880,00 ;

1 个答案:

答案 0 :(得分:0)

我发现了一个可以帮助你的功能

function removeAcentos($string, $slug = false) {
    $string = strtolower($string);

    // Código ASCII das vogais
    $ascii['a'] = range(224, 230);
    $ascii['e'] = range(232, 235);
    $ascii['i'] = range(236, 239);
    $ascii['o'] = array_merge(range(242, 246), array(240, 248));
    $ascii['u'] = range(249, 252);

    // Código ASCII dos outros caracteres
    $ascii['b'] = array(223);
    $ascii['c'] = array(231);
    $ascii['d'] = array(208);
    $ascii['n'] = array(241);
    $ascii['y'] = array(253, 255);

    foreach ($ascii as $key=>$item) {
        $acentos = '';
        foreach ($item AS $codigo) $acentos .= chr($codigo);
        $troca[$key] = '/['.$acentos.']/i';
    }

    $string = preg_replace(array_values($troca), array_keys($troca), $string);

    // Slug?
    if ($slug) {
        // Troca tudo que não for letra ou número por um caractere ($slug)
        $string = preg_replace('/[^a-z0-9]/i', $slug, $string);
        // Tira os caracteres ($slug) repetidos
        $string = preg_replace('/' . $slug . '{2,}/i', $slug, $string);
        $string = trim($string, $slug);
    }

    return $string;
}
$file = fopen("test.csv", "r");  //with you csv example
    while (!feof($file) ) {
      $csv_array = fgetcsv($file,4096,";");
         for($x=0;$x<count($csv_array);$x++){
            echo removeAcentos($csv_array[$x])."<br>";
         }
    }
    fclose($file);

它返回:

referencia
descripcion
saldo
ubicacion
cost
costo mas iva
precio p
.
.
.

3500000000
llanta 160/60zr-17 pilot road2
#n/a
#n/a
243.815
$ 331.588,40
$ 384.642,54 
.
.