我一直在使用R中的tabulizer包进行练习并遇到以下问题。不幸的是,我不能提供可重复的例子,因为pdf是公司财产,但我会详细描述问题。
我试图阅读在右上角有开始和结束日期的PDF。当我打开PDF时,它们看起来很正常
Start: 01-Mar-2018
End: 31-Mar-2018
现在有趣的部分。当我突出显示它们并使用Ctrl + C复制它们时,这是粘贴到R时的结果。
:tttt: 11-rrr-8118
tt:: 11-rrr-8118
这与extract_text(path, pages=1)
给出的完全相同。很多t :: ttttt:ttt ...我的问题是这个PDF中是否有一些安全性,或者我只需要找出正确的编码,或者因为这个PDF是从系统自动创建的,所以对于一切都有一些奇怪的表示法?
答案 0 :(得分:0)
我明白了。此PDF主要由元数据创建(不知道),R中用于访问PDF中元数据的优秀工具是common = set(x[:x.rindex('_')] for x in list_1) & set(x[:x.rindex('.')] for x in list_2)
。
pdftools
你可以纠结所有重要的元数据位。