是否可以使用git来区分PowerPoint版本控制?

时间:2015-08-27 21:43:35

标签: git diff powerpoint git-diff

我有一些PowerPoint文档,我用git进行版本控制。我想知道文件版本之间有什么区别。文本是最重要的,图像和格式不是那么多(至少在这一点上不是这样)。

4 个答案:

答案 0 :(得分:4)

我在命令行中使用git编写了这个(需要Python和python-pptx库):

"""
Setup -- Add these lines to the following files:
--- .gitattributes
*.pptx diff=pptx

--- .gitconfig (or repo\.git\config    or your_user_home\.gitconfig) (change the path to point to your local copy of the script)
[diff "pptx"]
    binary = true
    textconv = python C:/Python27/Scripts/git-pptx-textconv.py

usage:
git diff your_powerpoint.pptx


Thanks to the  python-pptx docs and this snippet:
http://python-pptx.readthedocs.org/en/latest/user/quickstart.html#extract-all-text-from-slides-in-presentation
"""

import sys
from pptx import Presentation


if __name__ == '__main__':
    if len(sys.argv) != 2:
        print "Usage: git-pptx-textconv file.xslx"

    path_to_presentation = sys.argv[1]

    prs = Presentation(path_to_presentation)

    for slide in prs.slides:
        for shape in slide.shapes:
            if not shape.has_text_frame:
                continue
            for paragraph in shape.text_frame.paragraphs:
                par_text = ''
                for run in paragraph.runs:
                    s = run.text
                    s = s.replace(r"\\", "\\\\")
                    s = s.replace(r"\n", " ")
                    s = s.replace(r"\r", " ")
                    s = s.replace(r"\t", " ")
                    s = s.rstrip('\r\n')

                    # Convert left and right-hand quotes from Unicode to ASCII
                    # found http://stackoverflow.com/questions/816285/where-is-pythons-best-ascii-for-this-unicode-database
                    # go here if more power is needed  http://code.activestate.com/recipes/251871/
                    # or here                          https://pypi.python.org/pypi/Unidecode/0.04.1
                    punctuation = { 0x2018:0x27, 0x2019:0x27, 0x201C:0x22, 0x201D:0x22 }
                    s.translate(punctuation).encode('ascii', 'ignore')
                    s = s.encode('utf-8')
                    if s:
                        par_text += s
                print par_text

答案 1 :(得分:3)

我无法按照接受的答案建议安装python-pptx,所以我找了一个node.js解决方案(也可以用于其他几种可以处理的文件格式)。

安装https://github.com/dbashford/textractnpm install --global textract)。

.git config中定义diff "textract"的方式。对于我的Windows机器,

[diff "textract"]
    binary = true
    textconv=textract.cmd

.gitattributes中定义*.pptx文件应使用diff "textract"

*.pptx diff=textract

git diff愉快地。

答案 2 :(得分:0)

不是真的。 PowerPoint文件本质上是一个完整文件夹的存档(zip)。 Git会将其视为二进制文件(因为它是)。

也许有第三方扩展可以做到,但我从来没有听说过。

答案 3 :(得分:0)

我无法直接与git对话,因为我们在工作中使用Visual Studio + TFS。然而,一些研究表明这应该有效。我在VS上做的是集成WinMerge及其插件,它支持MS Office和PDF文件的文本比较。这允许我将pptx,docx,pdf等文件的差异发布到版本控制。

对于git,它的工作方式是:

1)使用xdocdiff插件获取WinMerge:http://freemind.s57.xrea.com/xdocdiffPlugin/en/index.html 2)将WinMerge与git:https://coderwall.com/p/76wmzq/winmerge-as-git-difftool-on-windows

集成

希望这可以让您看到PowerPoint的基于文本的差异。