我正在尝试开发一个工具/网络应用程序,以便导入PDF文件,我需要选择PDF格式的文本和图像,方法是用鼠标点击选择它们,并将它们标记为标题,内容和按下按钮的图像(3个不同的按钮),其中标记的内容和图像将被复制到剪贴板或将被粘贴到word文档中,该文档将成为另一个部分。那么在哪种编程语言中可以使用并继续使用?
答案 0 :(得分:0)
我可能会尝试使用pdf.js
和clipboard API来研究纯浏览器端解决方案。
否则,您仍然需要在浏览器中使用clipboard API
,服务器端实际上可以使用任何可以挂接到Web服务器并具有解析PDF的库的编程语言。 / p>
您对预期的服务器平台一无所知,但仅举几例,.NET有PdfSharp能够阅读PDF Python has a host of tools。毕竟,存在一堆命令行实用程序来从PDF中提取数据,可以使用任何能够调用外部进程的PL来调用它。
请注意,只有出现比使用pdf.js
更简单的解决方案,但请注意,除非您的PDF非常统一(例如,某些软件创建的发票),等等您将能够使您的PDF解析器知道它必须提取和返回哪些数据,解析器需要将它提取的所有数据都返回给客户端,并且您需要#39 ;我需要以某种方式在那里渲染它。可能是你需要但也许不是。
由于PDF实际上是为排版而定制的,而不是以结构化的方式呈现信息,因此我尝试搭载在浏览器中运行的已经很硬核的PDF渲染解决方案,所以请参见上文。