python - 从PDF到CSV的特定页面中提取表的最有效方法是什么 - Thinbug

从PDF到CSV的特定页面中提取表的最有效方法是什么

时间：2019-06-17 11:41:20

标签： python elasticsearch tabula-py

我想将PDF中的特定页面提取到CSV表中。为此，我使用tabula-py，textract（我从PyPDF2方法获得更好的结果），PyPDF2。

对于每个PDF，我都会拆分每个页面，然后使用textract，如果找到所需的文本，则使用tabula-py将表格导出到CSV。问题在于这是一个缓慢的过程。

使用弹性堆栈是否会使过程更快？我的意思是为PDF编制索引，然后使用python API提取我想要的文本？

0 个答案:

没有答案