标签: java python node.js pdf
我需要从pdf创建json,将pdf内容呈现为包含所有图像和文本的HTML。我已经尝试过以下模块来做到这一点。我现在只能提取普通图像,但无法提取图形图像和背景阴影图像。是否有任何模块可以获得这些?
尝试了模块
-PDFMiner (python) -Mammoth(Node) -pdf2json(Node) -PDFBox(Java)