Question

我想使用基于XPDF的PDFTOTEXT命令行工具来查看PDF文件，希望获得UTF-8输出。我在StackOverflow上看到了其他人 - 问题4039930,3809761和13618330表明其他人已经能够使用它了。

当我使用选项-enc utf-8时，会显示以下消息：

Syntax Error: Couldn't find unicodeMap file for the 'utf-8' encoding
Config Error: Couldn't get text encoding

我见过文档（其中包括）UTF-8编码是“预定义的”但我找不到我需要指向的文件。（我已经看过基于XPDF的软件的多个不同下载，但还没有找到它。）

任何指针都会受到赞赏。

编辑：我在Windows上。

Answer 1

您应该使用UTF-8代替utf-8。请参阅pdftotext帮助信息：

$ pdftotext -listenc
Available encodings are:
UCS-2
ASCII7
Latin1
UTF-8
ZapfDingbats
Symbol

证明代码：

$ pdftotext -eol unix -nopgbrk -layout -enc utf-8 file.pdf
Syntax Error: Couldn't find unicodeMap file for the 'utf-8' encoding
Command Line Error: Couldn't get text encoding
$ pdftotext -eol unix -nopgbrk -layout -enc UTF-8 file.pdf
$ echo $?
0

PDFTOTEXT输出需要UTF-8格式的文件在哪里？

1 个答案: