PHP utf8问题

时间:2008-10-03 12:41:56

标签: php utf-8

将数组与挪威字符与utf8字符进行比较时遇到一些问题。

除了特殊的挪威字符(æ,ø,å)之外的所有字符都可以正常工作。

function isNorwegianChar($Char)
{
    $aNorwegianChars = array('a', 'A', 'b', 'B', 'c', 'C', 'd', 'D', 'e', 'E', 'f', 'F', 'g', 'G', 'h', 'H', 'i', 'I', 'j', 'J', 'k', 'K', 'l', 'L', 'm', 'M', 'n', 'N', 'o', 'O', 'p', 'P', 'q', 'Q', 'r', 'R', 's', 'S', 't', 'T', 'u', 'U', 'v', 'V', 'w', 'W', 'x', 'X', 'y', 'Y', 'z', 'Z', 'æ', 'Æ', 'ø', 'Ø', 'å', 'Å', '=', '(', ')', ' ', '-');
    $iArrayLength = count($aNorwegianChars);

    for($iCount = 0; $iCount < $iArrayLength; $iCount++)
    {
        if($aNorwegianChars[$iCount] == $Char)
        {
            return true;
        }
    }

    return false;

}

如果有人知道我能做什么,请告诉我。

更新

需要这个的原因是我正在尝试解析包含带有挪威语和中文单词的行的文本文件,比如字典。我想把这行分成字符串,一行包含挪威语,一行包含中文。稍后将将其插入数据库中。示例行:

impulsiv形冲动的

imøtegå动反对,反驳

imøtekomme动符合

alkoholmisbruk(er)名滥用酒精(名滥用酒精的人)

alkoholpåvirket形受酒精影响的

alkotest名呼吸性酒精测试

alkymi(st)名炼金术(名炼金术士)

all,alt,alle,形全部,所有

正如你所看到的那样,这些单词之间可能存在空格,所以我不能使用像爆炸这样简单的东西来分割中文和挪威语。我所做的是使用isNorwegianChar并遍历该行,直到找到不在数组中的char。

问题在于æ,ø和å不是作为挪威字符归还的,它认为中文字已经开始。

以下是代码:

   //Open file.
$rFile = fopen("norsk-kinesisk.txt", "r");

// Loop through the file.
$Count = 0;
while(!feof($rFile))
{
    if(40== $Count)
    {
        break;
    }

    $sLine = fgets($rFile);

    if(0 == $Count)
    {
        $sLine = mb_substr($sLine, 3);
    }

    $iLineLength        = strlen($sLine);
    $bChineseHasStarted = false;
    $sNorwegianWord     = '';
    $sChineseWord       = '';
    for($iCount2 = 0; $iCount2 < $iLineLength; $iCount2++)
    {
        $char = mb_substr($sLine, $iCount2, 1);

        if(($bChineseHasStarted === false) && (false == isNorwegianChar($char)))
        {
            $bChineseHasStarted = true;
        }

        if(false === $bChineseHasStarted)
        {
            $sNorwegianWord .= $char;
        }
        else
        {
            $sChineseWord .= $char;
        }

        //echo $char;
    }

    $sNorwegianWord = trim($sNorwegianWord);
    $sChineseWord = trim($sChineseWord);

    $Count++;
}

fclose($rFile);

7 个答案:

答案 0 :(得分:3)

首先,如果没有其他人回答,我将在稍后使用UTF-8,像你一样迭代是一种搜索数组的非常糟糕的方法。 PHP有内置函数:

http://fr.php.net/array_search

所以你可能想尝试一下,看看它是否有助于解决你的问题。还要确保您正在编写的PHP文件也以UTF-8编码!

<强>更新

尝试使用以下代码,该代码在我的服务器上运行正常。如果它不起作用,请检查PHP是否配置为默认使用UTF-8,或添加必要的ini_set调用。

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN">
<html>
<head><title>norvegian utf-8 test</title>
<meta http-equiv="Content-type" value="text/html; charset=UTF-8" />
</head>

<body>

<?php

function isSpecial($char) {
    $special_chars = array("æ", "ø", "å", "か");
    return (array_search($char, $special_chars) !== false);
}

if (isset($_REQUEST["char"])) {
    echo $_REQUEST["char"].(isSpecial($_REQUEST["char"])?" (true)":" (false)");
}


?>

<form  method="POST" accept-charset="UTF-8">
<input type="text" name="char">
<input type="submit" value="submit">
</form>


</body>
</html>

答案 1 :(得分:3)

如果您的PHP脚本文件具有ANSI编码而不是UTF-8,那么在字节级别上,这些挪威字符将与它们以UTF-8编码时的字符不同。由于PHP是一种字节处理语言,而不是文本处理语言,因此它会对字节序列进行适当的比较,并得出它们不匹配的结论。

要解决此问题,您可以确保您的PHP脚本与您要比较的字符集具有相同的编码,或者您可以使用iconv或mbstring库转换为适当的字符集。

另外,如果您还没有阅读,请阅读:http://www.joelonsoftware.com/articles/Unicode.html

更新:您要考虑的另一点是确保您传入此功能的内容符合您的想法。如果您使用数组索引运算符一次循环一个字符串一个字符,它将无法工作,因为您的UTF-8字符串可能使用两个字节(两个数组索引位置)来存储一个字符。 mbstring中有一些函数可以根据字符位置从字符串中复制文本,而不是字节位置。

答案 2 :(得分:1)

我终于明白了。它可能不是一个很好的方法,但它的工作原理。

我正在使用的数组似乎与输入字符的字符集不同。我通过创建所有数组元素的字符串然后使用mb_strpos来搜索字符来解决这个问题。所以代码的唯一变化是isNorwegianChar函数。新功能如下所示:

function isNorwegianChar($Char)
{
    $sNorwegianChars = "'aAbBcCdDeEfFgGhHiIjJkKlLmMnNoOpPqQrRsStTuUvVwWxXyYzZæÆøØåÅ=() -,";

    if(mb_strpos($sNorwegianChars, $Char))
    {
        return true;
    }
    else
    {
        return false;
    }
}

感谢您的帮助!

答案 3 :(得分:0)

查看您是否安装了mbstring扩展

答案 4 :(得分:0)

据我所知,如果您有权访问网络服务器,最好安装mbstring(http://www.php.net/manual/en/ref.mbstring.php)扩展名。

答案 5 :(得分:0)

尝试使用utf8编码和解码功能。可能有帮助

答案 6 :(得分:0)

由于问题是将Norvegian单词与中文单词分开,为什么不使用显式字形来表达(我个人喜欢“¶”),而不是依赖算法?

impulsiv¶形冲动的

然后使用mb-splitmb-substr结合mb-strpos

如果需要输出字符串,可以使用空格轻松替换它!

可悲的是,PHP中的PCRE不允许我们将{p与script names一起使用。

(在regexp.reference中查找“InMusicalSymbols”,§“Unicode字符属性”,以了解我的意思)