从PDF到CSV的特定页面中提取表的最有效方法是什么

时间:2019-06-17 11:41:20

标签: python elasticsearch tabula-py

我想将PDF中的特定页面提取到CSV表中。为此,我使用tabula-py,textract(我从PyPDF2方法获得更好的结果),PyPDF2。

对于每个PDF,我都会拆分每个页面,然后使用textract,如果找到所需的文本,则使用tabula-py将表格导出到CSV。问题在于这是一个缓慢的过程。

使用弹性堆栈是否会使过程更快?我的意思是为PDF编制索引,然后使用python API提取我想要的文本?

0 个答案:

没有答案