从多字节字符串中剥离重复字符的PHP方法?

时间:2011-03-24 01:18:45

标签: php multibyte-functions

Arrrgh。有谁知道如何创建一个与PHP count_chars($ string,3)命令等效的多字节字符的函数?

这样它将返回每个唯一字符的ONLY ONE INSTANCE列表。如果那是英语,我们有

“aaabggxxyxzxxgggghq xcccxxxzxxyx”

它将返回“abgh qxyz”(注意空间被计算在内)。

(在这种情况下,顺序并不重要,可以是任何东西)。

如果日本汉字(不确定浏览器都支持这个):

汉汉汉字汉字私私字私字汉字私汉字汉字私

它将只返回使用的3个汉字:

汉字私

它需要处理任何UTF-8编码的字符串。

3 个答案:

答案 0 :(得分:4)

嘿,戴夫,你永远不会看到这个来了。

php > $kanji = '漢漢漢字漢字私私字私字漢字私漢字漢字私';
php > $not_kanji = 'aaabcccbbc';
php > $pattern = '/(.)\1+/u';
php > echo preg_replace($pattern, '$1', $kanji);
漢字漢字私字私字漢字私漢字漢字私
php > echo preg_replace($pattern, '$1', $not_kanji);
abcbc

什么,你以为我会再次使用mb_substr

在正则表达式中,它正在寻找任何一个字符,然后是同一个字符的一个或多个实例。然后将匹配的区域替换为匹配的一个字符。

u modifier在PCRE中打开UTF-8模式,其中它处理 UTF-8序列而不是8位字符。只要正在处理的字符串是UTF-8已经并且 PCRE是使用Unicode支持编译的,这应该适合您。


嘿,猜猜看!

$not_kanji = 'aaabbbbcdddbbbbccgggcdddeeedddaaaffff';
$l = mb_strlen($not_kanji);
$unique = array();
for($i = 0; $i < $l; $i++) {
    $char = mb_substr($not_kanji, $i, 1);
    if(!array_key_exists($char, $unique))
        $unique[$char] = 0;
    $unique[$char]++;
}
echo join('', array_keys($unique));

这使用与随机播放代码相同的一般技巧。我们获取字符串的长度,然后使用mb_substr一次提取一个字符。然后我们将该字符用作数组中的键。我们正在利用PHP的位置数组:键按照它们的定义顺序排序。一旦我们浏览完字符串并识别出所有字符,我们就会按照它们出现在字符串中的顺序抓住键并加入。您还可以通过此技术获得每个字符的字符数。

如果有mb_str_split这样的事情可以与str_split一起使用,那会更容易。

(这里没有汉字例子,我遇到了复制/粘贴错误。)


在这里,试试这个尺寸:

function mb_count_chars_kinda($input) {
    $l = mb_strlen($input);
    $unique = array();
    for($i = 0; $i < $l; $i++) {
        $char = mb_substr($input, $i, 1);
        if(!array_key_exists($char, $unique))
            $unique[$char] = 0;
        $unique[$char]++;
    }
    return $unique;
}

function mb_string_chars_diff($one, $two) {
    $left = array_keys(mb_count_chars_kinda($one));
    $right = array_keys(mb_count_chars_kinda($two));
    return array_diff($left, $right);
}

print_r(mb_string_chars_diff('aabbccddeeffgg', 'abcde'));
/* => 
Array
(
    [5] => f
    [6] => g
)
*/

您需要将此调用两次,第二次使用右侧的左侧字符串,右侧的字符串位于左侧。输出会有所不同 - array_diff只是给你左边缺少的东西,所以你必须做两次才能得到整个故事。

答案 1 :(得分:0)

请尝试检查iconv_strlen PHP标准库函数。不能说东方编码,但它适用于欧洲和东欧语言。无论如何,它给了一些自由!

答案 2 :(得分:0)

$name = "My string";
$name_array = str_split($name);
$name_array_uniqued = array_unique($name_array);
print_r($name_array_uniqued);

更容易。用户str_split将短语转换为一个数组,每个字符作为一个元素。然后使用array_unique删除重复项。很简单。没什么复杂的。我喜欢这样。