Question

我正在开发一个需要将PDF转换为文本的项目。 PDF包含印地语字体（Mangal是特定的）以及英语。

100％的英语被转换为文本。印地语部分的转换率约为95％。剩余的5％印地语文本要么是空白，要么是“ा”。我可以弄清楚重音字符没有正确转换为文本。

我正在使用以下代码：

pdftotext -enc UTF-8 pdfname.pdf textname.txt

PDF使用以下字体

name，type，emb，sub，uni

ZDPKEY + Mangal，CID TrueType，yes，yes，yes

Mangal TrueType，no，no，no

Helvetica-Bold Type 1，no，no，no

CODUBM + Mangal-Bold，CID TrueType，yes，yes，yes

Mangal-Bold，TrueType，no，no，no

Times-Roman，Type 1 no，no，no

Helvetica，Type 1，no，no，no

以下是转换的结果。左侧是原始PDF。右侧是在记事本中打开的文字：

http://preview.tinyurl.com/qbxud9o

我的问题是，使用开源软件包在Text中是否正确捕获了5％的丢失/垃圾字符？非常感谢您的投入！

Answer 1

将您的代码更改为。

pdftotext -enc "UTF-8" pdfname.pdf textname.txt

它对我有用，同样它应该适合你。