标签: r pdf text
我对R的功能要求最低。
我以前有一个员工文本分析脚本,该脚本是使用pdftools :: pdf_text导入数据构建的。
我想删除重复的页脚信息,这些信息只会使事情变得混乱。页脚包含一个文档编号,制作此报告的办公室以及页码。我不太担心页码。文档#和office在每个文档中都是静态的,因此它似乎是grep或其他正则表达式方法的理想目标。
预先感谢您的任何建议。