应用错误收集

Pdf Text错误的字符提取

时间：2018-01-10 16:00:57

标签： pdf text-extraction data-extraction

我有pdf page，公式为：

提取文本时，很少有字符错误。文字看起来像这样：

/ ToUnicode对象33 0 R未过滤的流看起来像这样：

编码看起来像这样：

渲染说明如下：

Unicode Vulgar Fraction 1/4（1/4）或00bc似乎呈现为等号（003d）。

这些信息是否可以在pdf中搜索到我可以提取正确的字符？它在哪里？

我已经改变了这个问题，所以它不太宽泛。

0 个答案:

没有答案