使用pdftools

时间:2017-09-29 14:54:13

标签: r parsing pdf

我正在尝试按照R中的段落解析PDF文档。我已将PDF保存在本地计算机上。因此,请从Apple website下载示例pdf。

require(pdftools)

apple <- pdf_text('apple.pdf')

apple[[26]]

问题在于,如果我们检查第26页,每行都以&#39; \ r \ n&#39;终止。这与第一段末尾(斜体)和概述和亮点段落之间的\ r \ n没有什么不同。在PDF中,似乎跳过了2行,但R中的对象并没有反映出来。

我无法弄清楚这是否是这个特定包的功能,或者实际上转换为文本是否会消除这些段落标记。我还没有能够使用其他方法设置导入(例如使用tm package

1 个答案:

答案 0 :(得分:1)

我认为这是文档的基础属性(不是一般文本转换过程或pdftools)。

如果您使用鼠标选择段落符号中的文本,它不会拾取空白行,表明它们是PDF的布局元数据的一部分而不是文本本身(尽管我实际上并不知道任何关于PDF文件规范):

selected paragraph break

您最好的选择可能是使用启发式规则集来识别段落中断。我想的是:

  • 上一行以句号结束,然后是\ r \ n
  • 段落标题行很短,没有句号结束,然后\ r \ n
  • 段落的第一句以大写字母开头并占据整行