我正在开发一个需要将PDF转换为文本的项目。 PDF包含印地语字体(Mangal是特定的)以及英语。
100%的英语被转换为文本。印地语部分的转换率约为95%。剩余的5%印地语文本要么是空白,要么是“ा”。我可以弄清楚重音字符没有正确转换为文本。
我正在使用以下代码:
pdftotext -enc UTF-8 pdfname.pdf textname.txt
PDF使用以下字体
name,type,emb,sub,uni
ZDPKEY + Mangal,CID TrueType,yes,yes,yes
Mangal TrueType,no,no,no
Helvetica-Bold Type 1,no,no,no
CODUBM + Mangal-Bold,CID TrueType,yes,yes,yes
Mangal-Bold,TrueType,no,no,no
Times-Roman,Type 1 no,no,no
Helvetica,Type 1,no,no,no
以下是转换的结果。左侧是原始PDF。右侧是在记事本中打开的文字:
http://preview.tinyurl.com/qbxud9o
我的问题是,使用开源软件包在Text中是否正确捕获了5%的丢失/垃圾字符?非常感谢您的投入!
答案 0 :(得分:1)
将您的代码更改为。
pdftotext -enc "UTF-8" pdfname.pdf textname.txt
它对我有用,同样它应该适合你。