我有一个问题,我觉得Google很容易,但似乎并不那么容易。好的,这是我的问题:
我必须阅读一个具有错误和不同编码的CSV文件。我无法事先更正CSV文件,因此我必须在我的应用程序中处理它。因此CSV文件可以具有以下编码:
'Ü5'和'Möbelmarkt'在同一档案中。
如果我解码( utf8_decode ),正确的一个是正确的,左边(这是正确的)是错误的。当我试图找出编码( mb_detect_encoding )时,我总能得到这是UTF-8的答案。
我仍然尝试了以下解决方案:
public function convert( $str ) {
return iconv( "Windows-1252", "UTF-8", $str );
}
和
private function getUmlauteArray() {
return array( 'ü'=>'ü', 'ä'=>'ä', 'ö'=>'ö', 'Ö'=>'Ö', 'ß'=>'ß', 'à '=>'à', 'á'=>'á', 'â'=>'â', 'ã'=>'ã', 'ù'=>'ù', 'ú'=>'ú', 'û'=>'û', 'Ù'=>'Ù', 'Ú'=>'Ú', 'Û'=>'Û', 'Ãœ'=>'Ü', 'ò'=>'ò', 'ó'=>'ó', 'ô'=>'ô', 'è'=>'è', 'é'=>'é', 'ê'=>'ê', 'ë'=>'ë', 'À'=>'À', 'Ã'=>'Á', 'Â'=>'Â', 'Ã'=>'Ã', 'Ä'=>'Ä', 'Ã…'=>'Å', 'Ç'=>'Ç', 'È'=>'È', 'É'=>'É', 'Ê'=>'Ê', 'Ë'=>'Ë', 'ÃŒ'=>'Ì', 'Ã'=>'Í', 'ÃŽ'=>'Î', 'Ã'=>'Ï', 'Ñ'=>'Ñ', 'Ã’'=>'Ò', 'Ó'=>'Ó', 'Ô'=>'Ô', 'Õ'=>'Õ', 'Ø'=>'Ø', 'Ã¥'=>'å', 'æ'=>'æ', 'ç'=>'ç', 'ì'=>'ì', 'Ã'=>'í', 'î'=>'î', 'ï'=>'ï', 'ð'=>'ð', 'ñ'=>'ñ', 'õ'=>'õ', 'ø'=>'ø', 'ý'=>'ý', 'ÿ'=>'ÿ', '€'=>'€' );
}
public function fixeUmlaute($string) {
$umlaute = $this->getUmlauteArray();
foreach ($umlaute as $key => $value){
$value = str_replace($key, $value, $string);
}
return $string;
}
和
function valid_utf8( $string ){
return !((bool)preg_match('~[\xF5\xF6\xF7\xF8\xF9\xFA\xFB\xFC\xFD\xFE\xFF\xC0\xC1]~ms',$string));
}
这就是我在谷歌搜索中找到的所有改变编码的解决方案......(也许这个“集合”可以帮助其他人......)那么,我怎样才能真正发现错误的字符或者我的错误在哪里?
有人可以给我一个提示吗?
格尔茨
V
答案 0 :(得分:1)
有一个很好的PHP类可以帮助你:https://github.com/neitanod/forceutf8 它会将任何字符集转换为UTF8,并为您处理检测。希望它有所帮助。