使用pdf2htmlEx工具在pdf到html转换期间字体错位

时间:2016-04-26 14:44:06

标签: html css google-chrome safari pdf2htmlex

使用PDF转换为HTML转换的基本问题

  1. 所有" ti"," fi"," tt"字符丢失
  2. SAMPLE SCREENSHOT

    1. 字体重叠问题
    2. SAMPLE SCREENSHOT

      • 注意:我没有用firefox来解决这个问题。在safari浏览器中获取chrome中的上述问题

      我正在使用

      • 使用 0.13.6 版本的pdf2htmlEX
      • 使用以下命令将pdf转换为html
        

      pdf2htmlEX --split-pages 1 --zoom 3 --fit-width 920 --correct-text-visibility 1 --dest-dir $ 1 $ 2 2>& 1

      受审

      使用 - fallback 1 选项解决了上述所有问题。但是

      1. 后备选项会降低文档的清晰度。
      2. 页面中的表格消失,而是替换为空格。
      3. 性质疑

          
            
        1. 您能否就回退再解释一下?

        2.   
        3. 我已尝试过上述(使用后备)。如果您更喜欢使用其他方法解决上述字体问题,请建议我。

        4.   

        使用chrome和safari获得上述问题,而在Firefox中它运行正常。

1 个答案:

答案 0 :(得分:2)

上述问题仅发生在 - 像chrome和safari这样的webkit网络浏览器 - 它提供了对连字的支持 - 而像firefox这样的浏览器却没有。

  

ligature是两个或多个字母组合在一起的组合   字形

根本原因

缺少字符的问题是由于这些现代浏览器提供的连字支持 - 让我解释一下

1.转换时的工具 - 它使用poppler将字符转换为字形进行渲染 - 现在这些浏览器遇到像tt tf ti ff fi这样的字符时认为它们是连字并搜索对应于tt而不是tt的字形< / p>

2.由于他们没有相应的字形 - 他们只是跳过字符并渲染其余的字符 - 所以,我们将缺少的字符输入

可以通过

解决

禁用/关闭这些浏览器中的连字 - 将css嵌入生成内容

有关详细信息,请参阅:

如果我错了,请纠正我。