标签: pdf text-extraction data-extraction
我有pdf page,公式为:
提取文本时,很少有字符错误。文字看起来像这样:
/ ToUnicode对象33 0 R未过滤的流看起来像这样:
编码看起来像这样:
渲染说明如下:
Unicode Vulgar Fraction 1/4(1/4)或00bc似乎呈现为等号(003d)。
这些信息是否可以在pdf中搜索到我可以提取正确的字符?它在哪里?
我已经改变了这个问题,所以它不太宽泛。