我正在查看以下网址: http://www.unisonagency.com/assets/news/unison_pr_mvsl.pdf
我尝试过的所有开源文本提取工具,为标题提供了以下内容:
uNISON LAuNCHeS MAGHReb VIRTuAL SCIeNCe LIbRARy: A NeW
PORTAL PROMOTING INTeRNATIONAL SCIeNTIFIC AND
TeCHNICAL COLLAbORATION
然而,Adobe Acrobat Reader提供了更合理的东西 -
Unison Launch es Maghr eb Virt ual Sci enc e
Librar y: A New Portal Promoting Int ernational
Scientific and Technical Colla boration
空间关闭,但字符外壳更有意义。知道为什么会出现这种差异吗?
答案 0 :(得分:3)
显然,这是“标记内容”流的示例,其中BDC / EMC运算符用于使用“ActualText”属性注释流,这是正确文本所在的位置。
根据PDF 32000-1:2008中的7.9.2.2,文本本身采用UTF-16BE或PDFDocEncoding
答案 1 :(得分:-2)
字体在文档内部描述。文本提取工具将描述错误解释或根据字符代码进行假设。 Adobe产品以其他方式执行并正确解释。