如何将文档从.doc转换为文本

时间:2011-10-11 16:13:03

标签: php linux ms-word

我一直在思考写这个问题很长一段时间。

我在越南的一家小型新闻公司工作。

我运行的文件服务器是Ubuntu的最新版本(显然是PHP / Apache),这意味着.doc和.docx等格式本身无法打开,据我所知

但是,当记者上传文档时,有一半的时间是以某种Microsoft格式进行的。这意味着我的Linux机器无法打开并挑选出关键字,这对我来说非常令人沮丧;这是因为pdf2txt.py之类的东西不起作用。

是否可以解决这个问题,而不会给记者带来太多不便?我知道,因为我正在运行Linux服务器,所以我可能需要运行某种第三方应用程序来为我完成工作,这可能会在短期内起作用,但这可能会带来一些安全风险。

摘要:如何让Linux服务器自动将任何格式(如.doc和.docx)转换为PDF以进行进一步操作?

1 个答案:

答案 0 :(得分:1)

对于oldschool doc文件,请查看catdoc和wv。

对于可以将OpenOffice可以打开的任何内容转换为OpenOffice可以保存的任何内容的全方位解决方案,unoconv