Question

我正在尝试按照R中的段落解析PDF文档。我已将PDF保存在本地计算机上。因此，请从Apple website下载示例pdf。

require(pdftools)

apple <- pdf_text('apple.pdf')

apple[[26]]

问题在于，如果我们检查第26页，每行都以＆＃39; \ r \ n＆＃39;终止。这与第一段末尾（斜体）和概述和亮点段落之间的\ r \ n没有什么不同。在PDF中，似乎跳过了2行，但R中的对象并没有反映出来。

我无法弄清楚这是否是这个特定包的功能，或者实际上转换为文本是否会消除这些段落标记。我还没有能够使用其他方法设置导入（例如使用tm package）

Answer 1

我认为这是文档的基础属性（不是一般文本转换过程或pdftools）。

如果您使用鼠标选择段落符号中的文本，它不会拾取空白行，表明它们是PDF的布局元数据的一部分而不是文本本身（尽管我实际上并不知道任何关于PDF文件规范）：

您最好的选择可能是使用启发式规则集来识别段落中断。我想的是：