使用AWS Lambda上的Python将MS Word(.doc和.docx)文件转换为HTML

时间:2016-11-29 16:47:49

标签: python aws-lambda libreoffice openoffice.org

尝试使用AWS Lambda上的Python将MS Word文件转换为HTML。对于.docx,我知道有一个名为python-docx的库。但是当谈到.doc时,我仍然找不到优雅而简单的解决方案,因为大多数可能的解决方案都使用LibreOffice或OpenOffice。

有没有办法制作可以由AWS Lambda上的Python脚本操作的可移植版本的LibreOffice / OpenOffice?或者,我省略了.doc文件的Python库吗?

2 个答案:

答案 0 :(得分:2)

如果您正在寻找在AWS Lambda中运行的LibreOffice,这可能会对您有所帮助。最近我设法创建了一个在Lambda中运行的便携版本。

https://github.com/vladgolubev/serverless-libreoffice

答案 1 :(得分:1)

不幸的是,目前似乎没有优雅的解决方案可以解决这个问题。我曾尝试制作便携版LibreOffice / OpenOffice,但最大的问题是尺寸超出了AWS Lambda的限制。

虽然它无法处理.doc文件,但您可能想尝试 Pandoc 。但我在AWS Lambda上成功使用它。您可以访问here以了解如何为AWS Lambda制作便携版本。