我正在使用pdf2htmlEX
来将pdf文件转换为html。此后,我也从文件中提取文本。
问题:
我遇到了一个文件,该文件的转换后的html的文本不可读: https://dspace.mit.edu/openaccess-disseminate/1721.1/101159
我使用的命令:
pdf2htmlEX --tounicode 1 ./file.pdf
[2]“ M.” Ha h n,“ O。” B ar bie ri,“ F.P。” C a m p a na,“ R。”Kötz,“ R。” G alla y,“ A p p l。“ Ph ys。” A:“ M ter。” S ci。“ Proce ss。“ 8 2”(2 00 6)“
为--tounicode
arg设置其他值会使文本变得乱七八糟。
有一个使用此库的在线工具,在那里生成的html很好,这使其不是pdf2htmlEX错误,而是配置或版本问题。可能与poppler或fontforge有关。
版本:
pdf2htmlEX version 0.14.6
Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors
Libraries:
poppler 0.54.0
libfontforge 20180906
cairo 1.14.6
Default data-dir: /usr/local/share/pdf2htmlEX
Supported image format: png jpg svg
有什么建议吗?
答案 0 :(得分:-1)
我认为以下两个步骤将起作用:
<div> ::before <p>[2] something </p> ::after </div>