我在R中将几千个PDF转换为.txt文件,并试图解析出有用的信息。我需要的字符串之一恰好位于“请联系:”之后,就像这样
这是文件的文档头文件
如有任何疑问,请联系:
联系人姓名
我想提取联系人姓名,并将其与其他信息一起放在每个文本文件的单独表中的单独列中。文档的此部分位置有所不同,但始终以“ contact:”开头
我尝试使用:
str_trim(sapply(strsplit(textdata[grepl("contact:",textdata)], ":"), "[", 2)[1], side = "left")
,但这不起作用,因为它没有跳到下一行。