我需要找到希伯来语(从右到左阅读)句子之间的区别,例如
בְּרֵאשִׁ֖יתבָּרָ֣אאֱלֹהִ֑יםאֵ֥תהַשָּׁמַ֖יִםוְאֵ֥תהָאָֽרֶץ: (带有蒸馏标记)和
בְּרֵאשִׁיתבָּרָאאֱלֹהִיםאֵתהַשָּׁמַיִםוְאֵתהָאָרֶץ: (没有标记)。
对你来说可能看起来并没有什么不同,但希伯来语的读者可以在第一个短语中看到插词标记。
也可能是两个文本中额外的小点(元音)并不总是相同的。
所以我需要一种方法来检查PHP中的UTF-8编码文本并以某种方式突出显示差异,这样我就可以对'Shin'下面的第一个单词说某个人你错过了05AD unicode字符' Dehi”。
答案 0 :(得分:1)
$str1 = 'בְּרֵאשִׁ֖ית בָּרָ֣א אֱלֹהִ֑ים אֵ֥ת הַשָּׁמַ֖יִם וְאֵ֥ת הָאָֽרֶץ׃';
$str2 = 'בְּרֵאשִׁית בָּרָא אֱלֹהִים אֵת הַשָּׁמַיִם וְאֵת הָאָרֶץ';
$len1 = mb_strlen($str1, 'utf-8');
for($i = 0, $arr1 = array(); $i < $len1; $i++) {
$char = mb_substr($str1, $i, 1, 'utf-8');
if (preg_match('/[\x{0591}-\x{05c7}]/u', $char)) {
end($arr1);
$key = key($arr1);
$arr1[$key] = $arr1[$key] . $char;
} else if (preg_match('/\p{Zs}/u', $char)) {
continue;
} else {
$arr1[$i] = $char;
}
}
ksort($arr1);
$arr1 = array_values($arr1);
$len2 = mb_strlen($str2, 'utf-8');
for($i = 0, $arr2 = array(); $i < $len2; $i++) {
$char = mb_substr($str2, $i, 1, 'utf-8');
if (preg_match('/[\x{0591}-\x{05c7}]/u', $char)) {
end($arr2);
$key = key($arr2);
$arr2[$key] = $arr2[$key] . $char;
} else if (preg_match('/\p{Zs}/u', $char)) {
continue;
} else {
$arr2[$i] = $char;
}
}
ksort($arr2);
$arr2 = array_values($arr2);
$results = array();
foreach ($arr1 as $key => $value) {
if ($value != $arr2[$key]) {
$results[$key] = $value;
}
}
我明白了,结果显示
array (size=8)
3 => string 'שִׁ֖' (length=8)
7 => string 'רָ֣' (length=6)
11 => string 'הִ֑' (length=6)
14 => string 'אֵ֥' (length=6)
18 => string 'מַ֖' (length=6)
22 => string 'אֵ֥' (length=6)
25 => string 'אָֽ' (length=6)
27 => string 'ץ׃' (length=4)
3,7,11,14,18,22,25,27个字符不同(从右到左依次计数,从0开始);