我正在研究一个脚本,该脚本需要扫描文本块中的单词。它的一部分包括将文本清理为纯文本,除了复合词的撇号外,没有添加标点符号,但是,每当我通过此行时,对一个特定西班牙字符的编码似乎都会中断:
$content = preg_replace("/[^a-zA-Z'’`ÀàÂâÆæÈèÉéÊêËëÎîÏïÔôŒœÙùÛûÜüŸÿüáÁéÉíÍñÑóÓúÚüÜ¿¡«»]/iu", " ", $content);
有问题的字符是ó
。在这种情况下,我正在测试单词liquidación,当我打印结果时,它会返回liquidación
。
有没有一种方法可以解决此问题,或者有一种更好的方法来清理一段文本而只保留英语,法语和西班牙语字符?