Question

我正在做很多研究论文的循环。在这里，我要从阅读的文档中提取内容。

如何使R仅读取到最后一行（该行中有许多点）并指示为结束行？就像下面的图片一样：

[数字] [字母] [点] [数字]

enter image description here

如果没有太多的点，则停止并指示为结束线。

例如，我有以下代码，但不适用于其他文档，因为有时结局不同。

if(((nrow(pdf[pdf$text == "References ." & pdf$element_id == '2',]) == 1) & !(exists("endline"))) == 1){

endline <- pdf$line_id[pdf$text == "References ." & pdf$element_id == '2']
   }

R读取整个文档，并仅识别到最后一个有多个点的位置。

Answer 1

此正则表达式应有助于：

(\.+\s*\d+\n)(?!\d)

说明：

(\.+\s*\d+\n)-点和页码（带有可选空格），后跟行尾字符

(?!\d)-前瞻性为负，表示下一行的开头没有数字。

否定的前瞻功能很神奇，可以找到图案的最后出现。

工作示例：https://regex101.com/r/gIrhxf/2

如何读取直到特定终点的PDF？

1 个答案: