如何在Spark中阅读pdf文件

时间:2019-04-12 04:42:50

标签: apache-spark pdf hadoop2

通过使用Spark,我想读取包含表格式数据的PDF文件,并且结果应为结构化数据格式(以将其存储在数据库中)

可以建议任何框架读取pdf文件,并且结果应在结构数据中

PDF格式如下 click to view

预期结果应采用表格格式

0 个答案:

没有答案