标签: python elasticsearch tabula-py
我想将PDF中的特定页面提取到CSV表中。为此,我使用tabula-py,textract(我从PyPDF2方法获得更好的结果),PyPDF2。
对于每个PDF,我都会拆分每个页面,然后使用textract,如果找到所需的文本,则使用tabula-py将表格导出到CSV。问题在于这是一个缓慢的过程。
使用弹性堆栈是否会使过程更快?我的意思是为PDF编制索引,然后使用python API提取我想要的文本?