使用tabulizer包基于字符串提取列表

时间:2017-10-26 09:55:42

标签: r report tm tabular financial

使用 tabulizer 包提取季度损益表并将其转换为表格形式。

# 2017 Q3 Report
telia_url = "http://www.teliacompany.com/globalassets/telia-
company/documents/reports/2017/q3/telia-company-q3-2017-en"
telialists = extract_tables(telia_url)
teliatest1 = as.data.frame(telialists[22])

#2009 Q3#
telia_url2009 = "http://www.teliacompany.com/globalassets/telia-
company/documents/reports/2009/q3/teliasonera-q3-2009-report-en.pdf"
telialists2009 = extract_tables(telia_url2009)
teliatest2 = as.data.frame(telialists2009[9])

仅对简明综合收益表表感兴趣。对于所有历史报告,此字符串完全相同或非常相似。

上面,对于2017年的报告,列表#22是正确的表格。但是,由于2009年报告的布局不同,#9对于该特定报告是正确的。

根据“综合收益的简明合并报表”的字符串(或子字符串)所在的位置,使这个函数动态化的聪明解决方案是什么?

也许使用tm包来找到相对位置?

由于

1 个答案:

答案 0 :(得分:0)

您可以使用pdftools查找您感兴趣的页面。

例如,像这样的函数应该完成这项工作:

get_table <- function(url) {
  txt <- pdftools::pdf_text(url)
  p <- grep("condensed consolidated statements.{0,10}comprehensive income", 
            txt,
            ignore.case = TRUE)[1]
  L <- tabulizer::extract_tables(url, pages = p)
  i <- which.max(lengths(L))
  data.frame(L[[i]])
}

第一步是阅读角色向量txt中的所有页面。然后grep允许您找到看起来像您想要的第一页(我插入.{0,10}以允许最多十个字符,如标题中间的空格或换行符)。

使用tabulizer,您可以提取位于页面上的所有表格的列表L,这应该比提取文档的所有表格快得多,如你做到了。您的表可能是该页面上最大的表,因此是which.max