奇怪的PDF文本提取案例

时间:2011-08-11 06:57:06

标签: pdf

我正在查看以下网址: http://www.unisonagency.com/assets/news/unison_pr_mvsl.pdf

我尝试过的所有开源文本提取工具,为标题提供了以下内容:

uNISON LAuNCHeS MAGHReb VIRTuAL SCIeNCe LIbRARy: A NeW
PORTAL PROMOTING INTeRNATIONAL SCIeNTIFIC AND
TeCHNICAL COLLAbORATION

然而,Adobe Acrobat Reader提供了更合理的东西 -

Unison Launch es Maghr eb Virt ual Sci enc e
Librar y: A New Portal Promoting Int ernational
Scientific and Technical Colla boration

空间关闭,但字符外壳更有意义。知道为什么会出现这种差异吗?

2 个答案:

答案 0 :(得分:3)

显然,这是“标记内容”流的示例,其中BDC / EMC运算符用于使用“ActualText”属性注释流,这是正确文本所在的位置。

根据PDF 32000-1:2008中的7.9.2.2,文本本身采用UTF-16BE或PDFDocEncoding

答案 1 :(得分:-2)

字体在文档内部描述。文本提取工具将描述错误解释或根据字符代码进行假设。 Adobe产品以其他方式执行并正确解释。