Question

我正在尝试在制表器程序包中使用extract_tables。

library(tabulizer)
setwd("directory")
pdf_file <- "filenames.pdf"
cle <- extract_tables(pdf_file, pages=47 ,method="stream", encoding="UTF-8")

我需要使用extract_table函数，就是这段代码。

但是，存在一个关键问题。它会自动合并一些列

当您看到两个图像时，您可能会了解情况。 pdf表格图像中的第6和第7列已合并。

不是

0.9000 | -

0.6450 | -

0.7470 | -

两列像

一样合并

0.9000-

0.6450-

0.7470-

所以我想找到不像这样制作表格的方法，这也是通用方法。

因此，我试图将另一个组件放入这样的函数中。

library(pdftools)
library(tabulizer)
files <- list.files(pattern = "pdf$")

opinions <- lapply(files, pdf_text)

cle <- extract_tables(opinions[[2]][47],method="stream", encoding="UTF-8")

*!Error in normalizePath(path.expand(path), winslash, mustWork) :*

所以，如果您知道我应该怎么做，请留下任何解决方案。谢谢。

有什么方法可以在R中使用不同的extract_table函数吗？

0 个答案: