读取已通过R中的ABBYY OCR软件运行的PDF

时间:2016-06-03 21:41:42

标签: r pdf

我正在尝试使用R清除旧pdf报告中的数据。报告可以通过ABBYY OCR软件运行,并输出到每个原始pdf的文本文件中。最终目标是创建一个包含7列的数据框。 使用readLinesas.data.frame,我能够将文本文件导入到始终具有一致结构的数据框中,但是根据文档中的文本段落数量具有可变数量的元素。 / p>

X1

1 Company name

2 Author;date

3 Division

4 Topic (like keywords)

5 … X -1    Body of text

X   Total (this is a number that needs to be captured)

我遇到的麻烦是将变量行(5到X-1)并将它们组合成一个文本块。我知道我可以使用tidyr将作者和日期分成两个单独的列(尽管我很感激有助于区分美国和欧洲的格式) 最终输出应该是 -

Company.name    Author          Date        Division    Topic       Body            Total
“Xcorp”         “John Mills”    20 AUG 1987 “FLA”   “   ”Widget 1”  “We saw demand…”    187,921

关于如何处理此问题的任何想法?如果我在搜索网站时错过了这个,请告诉我使用的术语,我对R很新,可能不知道正确的术语。

0 个答案:

没有答案