R tabulizer编码或安全性

时间:2018-04-09 11:40:19

标签: r pdf

我一直在使用R中的tabulizer包进行练习并遇到以下问题。不幸的是,我不能提供可重复的例子,因为pdf是公司财产,但我会详细描述问题。

我试图阅读在右上角有开始和结束日期的PDF。当我打开PDF时,它们看起来很正常

Start: 01-Mar-2018
  End: 31-Mar-2018

现在有趣的部分。当我突出显示它们并使用Ctrl + C复制它们时,这是粘贴到R时的结果。

:tttt: 11-rrr-8118
tt:: 11-rrr-8118

这与extract_text(path, pages=1)给出的完全相同。很多t :: ttttt:ttt ...我的问题是这个PDF中是否有一些安全性,或者我只需要找出正确的编码,或者因为这个PDF是从系统自动创建的,所以对于一切都有一些奇怪的表示法?

1 个答案:

答案 0 :(得分:0)

我明白了。此PDF主要由元数据创建(不知道),R中用于访问PDF中元数据的优秀工具是common = set(x[:x.rindex('_')] for x in list_1) & set(x[:x.rindex('.')] for x in list_2)

pdftools

你可以纠结所有重要的元数据位。