我正在尝试按照R中的段落解析PDF文档。我已将PDF保存在本地计算机上。因此,请从Apple website下载示例pdf。
require(pdftools)
apple <- pdf_text('apple.pdf')
apple[[26]]
问题在于,如果我们检查第26页,每行都以&#39; \ r \ n&#39;终止。这与第一段末尾(斜体)和概述和亮点段落之间的\ r \ n没有什么不同。在PDF中,似乎跳过了2行,但R中的对象并没有反映出来。
我无法弄清楚这是否是这个特定包的功能,或者实际上转换为文本是否会消除这些段落标记。我还没有能够使用其他方法设置导入(例如使用tm package)