使用PDF转换为HTML转换的基本问题
我正在使用
pdf2htmlEX --split-pages 1 --zoom 3 --fit-width 920 --correct-text-visibility 1 --dest-dir $ 1 $ 2 2>& 1
受审
使用 - fallback 1 选项解决了上述所有问题。但是
性质疑
您能否就回退再解释一下?
- 醇>
我已尝试过上述(使用后备)。如果您更喜欢使用其他方法解决上述字体问题,请建议我。
使用chrome和safari获得上述问题,而在Firefox中它运行正常。
答案 0 :(得分:2)
上述问题仅发生在 - 像chrome和safari这样的webkit网络浏览器 - 它提供了对连字的支持 - 而像firefox这样的浏览器却没有。
ligature是两个或多个字母组合在一起的组合 字形
根本原因
缺少字符的问题是由于这些现代浏览器提供的连字支持 - 让我解释一下
1.转换时的工具 - 它使用poppler将字符转换为字形进行渲染 - 现在这些浏览器遇到像tt tf ti ff fi这样的字符时认为它们是连字并搜索对应于tt而不是tt的字形< / p>
2.由于他们没有相应的字形 - 他们只是跳过字符并渲染其余的字符 - 所以,我们将缺少的字符输入
可以通过
解决禁用/关闭这些浏览器中的连字 - 将css嵌入生成内容
有关详细信息,请参阅:
如果我错了,请纠正我。