我正在尝试使用R清除旧pdf报告中的数据。报告可以通过ABBYY OCR
软件运行,并输出到每个原始pdf的文本文件中。最终目标是创建一个包含7列的数据框。
使用readLines
和as.data.frame
,我能够将文本文件导入到始终具有一致结构的数据框中,但是根据文档中的文本段落数量具有可变数量的元素。 / p>
X1
1 Company name
2 Author;date
3 Division
4 Topic (like keywords)
5 … X -1 Body of text
X Total (this is a number that needs to be captured)
我遇到的麻烦是将变量行(5到X-1)并将它们组合成一个文本块。我知道我可以使用tidyr
将作者和日期分成两个单独的列(尽管我很感激有助于区分美国和欧洲的格式)
最终输出应该是 -
Company.name Author Date Division Topic Body Total
“Xcorp” “John Mills” 20 AUG 1987 “FLA” “ ”Widget 1” “We saw demand…” 187,921
关于如何处理此问题的任何想法?如果我在搜索网站时错过了这个,请告诉我使用的术语,我对R很新,可能不知道正确的术语。