Question

我一直在使用R中的tabulizer包进行练习并遇到以下问题。不幸的是，我不能提供可重复的例子，因为pdf是公司财产，但我会详细描述问题。

我试图阅读在右上角有开始和结束日期的PDF。当我打开PDF时，它们看起来很正常

Start: 01-Mar-2018
  End: 31-Mar-2018

现在有趣的部分。当我突出显示它们并使用Ctrl + C复制它们时，这是粘贴到R时的结果。

:tttt: 11-rrr-8118
tt:: 11-rrr-8118

这与extract_text(path, pages=1)给出的完全相同。很多t :: ttttt：ttt ...我的问题是这个PDF中是否有一些安全性，或者我只需要找出正确的编码，或者因为这个PDF是从系统自动创建的，所以对于一切都有一些奇怪的表示法？

Answer 1

我明白了。此PDF主要由元数据创建（不知道），R中用于访问PDF中元数据的优秀工具是common = set(x[:x.rindex('_')] for x in list_1) & set(x[:x.rindex('.')] for x in list_2)。

pdftools

你可以纠结所有重要的元数据位。