我正在编写一个需要从Google云端硬盘获取Google文档的Python应用程序。
我正在寻找设计和现有开源代码的想法。
据我所知,谷歌并没有提供出口减价。我想这意味着我必须弄明白,哪种可用的下载/导出格式最适合转换为降价。
确保文件内容不包含降价不支持的任何内容。
编辑:我想避免非python软件使设置尽可能简单。答案 0 :(得分:1)
您可能需要查看支持转换的Pandoc,即从docx到markdown。 Pandoc有几个Python包装器,例如pypandoc。
以docx格式从Google云端硬盘获取文档后,转换非常简单:
import pypandoc
markdown_output = pypandoc.convert_file('Document.docx', 'markdown')
答案 1 :(得分:1)
Google云端硬盘提供“压缩HTML”导出选项。
使用Python module html2text
将HTML转换为Markdown。
html2text是一个Python脚本,它将HTML页面转换为干净,易于阅读的纯ASCII文本。更好的是,ASCII也恰好是有效的Markdown(文本到HTML格式)。
>>> import html2text
>>>
>>> print(html2text.html2text("<p><strong>Zed's</strong> dead baby,
<em>Zed's</em> dead.</p>"))
**Zed's** dead baby, _Zed's_ dead.