Question

我正在尝试使用R清除旧pdf报告中的数据。报告可以通过ABBYY OCR软件运行，并输出到每个原始pdf的文本文件中。最终目标是创建一个包含7列的数据框。使用readLines和as.data.frame，我能够将文本文件导入到始终具有一致结构的数据框中，但是根据文档中的文本段落数量具有可变数量的元素。 / p>

X1

1 Company name

2 Author;date

3 Division

4 Topic (like keywords)

5 … X -1    Body of text

X   Total (this is a number that needs to be captured)

我遇到的麻烦是将变量行（5到X-1）并将它们组合成一个文本块。我知道我可以使用tidyr将作者和日期分成两个单独的列（尽管我很感激有助于区分美国和欧洲的格式）最终输出应该是 -

Company.name    Author          Date        Division    Topic       Body            Total
“Xcorp”         “John Mills”    20 AUG 1987 “FLA”   “   ”Widget 1”  “We saw demand…”    187,921

关于如何处理此问题的任何想法？如果我在搜索网站时错过了这个，请告诉我使用的术语，我对R很新，可能不知道正确的术语。

读取已通过R中的ABBYY OCR软件运行的PDF

0 个答案: