我正在做很多研究论文的循环。在这里,我要从阅读的文档中提取内容。
如何使R仅读取到最后一行(该行中有许多点)并指示为结束行?就像下面的图片一样:
[数字] [字母] [点] [数字]
如果没有太多的点,则停止并指示为结束线。
例如,我有以下代码,但不适用于其他文档,因为有时结局不同。
if(((nrow(pdf[pdf$text == "References ." & pdf$element_id == '2',]) == 1) & !(exists("endline"))) == 1){
endline <- pdf$line_id[pdf$text == "References ." & pdf$element_id == '2']
}
R读取整个文档,并仅识别到最后一个有多个点的位置。
答案 0 :(得分:0)
此正则表达式应有助于:
(\.+\s*\d+\n)(?!\d)
说明:
(\.+\s*\d+\n)
-点和页码(带有可选空格),后跟行尾字符
(?!\d)
-前瞻性为负,表示下一行的开头没有数字。
否定的前瞻功能很神奇,可以找到图案的最后出现。