我有一个从pdf转换的文本文档,其中包含空白,我无法匹配和替换。我设法打印它的ord()值并得到194,在返回的字符上得到length()2(因此我假设它是2个字节)。如何在Perl中删除此字符?谢谢。
答案 0 :(得分:3)
第一个字符是194 10 = C2 16 =Â
由于这不是空格,并且看到C2 16 通常在UTF-8多字节序列的开头发现,所以您似乎忘记了解码文本。那是您要做的第一件事。
然后,您可能会发现您拥有U + 00A0 NO BREAK SPACE。您可以使用
将其删除s/\xA0//