标签: apache-spark pdf hadoop2
通过使用Spark,我想读取包含表格式数据的PDF文件,并且结果应为结构化数据格式(以将其存储在数据库中)
可以建议任何框架读取pdf文件,并且结果应在结构数据中
PDF格式如下 click to view
预期结果应采用表格格式