首先是一些背景:我的网站有两种基本类型的用户。拥有免费帐户的用户可以上传文档,然后付费客户可以搜索和查看或下载这些文档。上传者只能查看他们拥有的文件,而付费用户可以查看任何内容。目前我们只支持Word文档(.doc或.docx)和纯文本。我们使用JODConverter库在Word和html之间进行转换; html是存储在数据库中的内容以及向用户显示的内容
我们也希望接受PDF,但我不确定在显示PDF或将其转换为HTML时最好的方法是什么。我已经看到了使用Google文档进行转换的建议,但是由于文档必须可以公开访问Google,因此限制访问似乎不太可行 - 如果我错了,请纠正我。看起来简单地在html中使用标签(或像PDFBox这样的东西)会遇到同样的问题
或者,我们可以忘记直接显示PDF文件并将其转换为html,就像我们使用Word文档一样,但我还没有遇到过看起来像样的图书馆。到目前为止,我所看到的所有内容似乎都说它没有那么好的转换工作,仅限Window和/或有很高的许可费。 (如果每年不超过100美元左右,许可费不一定是交易破坏者。)有没有人知道一个好的Java转换库? (如果它确实做得很好,那么通过命令行运行的东西是可以接受的。)
最后,我们计划为付费客户提供下载原始PDF文件的选项。那可能很复杂吗?在构建剩余的流程时,有什么我应该记住的吗?
答案 0 :(得分:1)
不是将PDF转换为HTML,这意味着某种OCR(识别文本),您可以通过JPedal等工具将PDF转换为图像,并创建一个HTML页面,按顺序链接到这些图像。因为这是java库,所以它不仅仅是windows。
下载原始PDF文件应该不是问题。您必须在标题中将mimetype设置为标准PDF扩展名:application / pdf。