Pdf Text错误的字符提取

时间:2018-01-10 16:00:57

标签: pdf text-extraction data-extraction

我有pdf page,公式为:

Formula

提取文本时,很少有字符错误。文字看起来像这样:

enter image description here

/ ToUnicode对象33 0 R未过滤的流看起来像这样:

enter image description here

编码看起来像这样:

enter image description here

渲染说明如下:

enter image description here

Unicode Vulgar Fraction 1/4(1/4)或00bc似乎呈现为等号(003d)。

这些信息是否可以在pdf中搜索到我可以提取正确的字符?它在哪里?

我已经改变了这个问题,所以它不太宽泛。

0 个答案:

没有答案