如何读取直到特定终点的PDF?

时间:2019-04-11 10:09:39

标签: r regex pdf-scraping

我正在做很多研究论文的循环。在这里,我要从阅读的文档中提取内容。

如何使R仅读取到最后一行(该行中有许多点)并指示为结束行?就像下面的图片一样:

[数字] [字母] [点] [数字]

enter image description here

如果没有太多的点,则停止并指示为结束线。

例如,我有以下代码,但不适用于其他文档,因为有时结局不同。

if(((nrow(pdf[pdf$text == "References ." & pdf$element_id == '2',]) == 1) & !(exists("endline"))) == 1){

endline <- pdf$line_id[pdf$text == "References ." & pdf$element_id == '2']
   }

R读取整个文档,并仅识别到最后一个有多个点的位置。

1 个答案:

答案 0 :(得分:0)

此正则表达式应有助于:

(\.+\s*\d+\n)(?!\d)

说明:

(\.+\s*\d+\n)-点和页码(带有可选空格),后跟行尾字符

(?!\d)-前瞻性为负,表示下一行的开头没有数字。

否定的前瞻功能很神奇,可以找到图案的最后出现。

工作示例:https://regex101.com/r/gIrhxf/2