我正在使用pdftotext
使用默认的utf-8编码将pdf文件转换为utf-8文本文件。例如
pdftotext input.pdf output.txt
在Emacs 23.4.1终端中查看时,一些文本文件看起来像粉红色的全块字符。这是截图。
起初,我认为这是一个完整的块字符,所以我试图在Perl脚本中将其删除。
$string =~ s/\x{2588}//g;
这并未删除字符。我想知道这是否是特定的UTF-8错误字符,由pdftotext
引起的某种 mojibake 还是Emacs的问题。