我一直在思考写这个问题很长一段时间。
我在越南的一家小型新闻公司工作。
我运行的文件服务器是Ubuntu的最新版本(显然是PHP / Apache),这意味着.doc和.docx等格式本身无法打开,据我所知
但是,当记者上传文档时,有一半的时间是以某种Microsoft格式进行的。这意味着我的Linux机器无法打开并挑选出关键字,这对我来说非常令人沮丧;这是因为pdf2txt.py
之类的东西不起作用。
是否可以解决这个问题,而不会给记者带来太多不便?我知道,因为我正在运行Linux服务器,所以我可能需要运行某种第三方应用程序来为我完成工作,这可能会在短期内起作用,但这可能会带来一些安全风险。
摘要:如何让Linux服务器自动将任何格式(如.doc和.docx)转换为PDF以进行进一步操作?
答案 0 :(得分:1)
对于oldschool doc文件,请查看catdoc和wv。
对于可以将OpenOffice可以打开的任何内容转换为OpenOffice可以保存的任何内容的全方位解决方案,unoconv。