从Open Document文件中提取文本会生成UnicodeEncodeError

时间:2013-11-29 13:33:22

标签: python encoding odf

我正在尝试使用odfpy将附加到Open Document Presentation文件的注释转换为文本。我设法打开文件,制作一个“笔记”对象列表,设法从我认为的段落中提取,并且它以某种方式工作,直到我尝试打印带有特殊字符的注释(德语面疙瘩öäü),这会导致错误:

UnicodeEncodeError:'ascii'编解码器无法对位置17-19中的字符进行编码:序数不在范围内(128)

现在我发现我不是第一个遇到编码问题的人,我很乐意深入研究重新编码文本。我的问题是我不知道如何将笔记转换为正确的字符串。这是我的代码:

import sys
from odf.presentation import Notes
from odf.opendocument import load
from odf import text

doc=load(sys.argv[1])
slides=doc.presentation
notes=slides.getElementsByType(Notes)

for page in notes:
    pars = page.getElementsByType(text.P)
    for p in pars:
        print p

我只是迭代元素并尝试打印它们,希望神奇地显示音符中的文本。我已在https://spideroak.com/browse/share/enno_middelberg/public/public存放了一个示例演示文件来说明问题。

任何人都可以告诉我如何从ODF元素和字符串中获取文本吗?

非常感谢,

恩诺

1 个答案:

答案 0 :(得分:2)

str(p)失败,因为p包含非ascii文本。

使用print unicode(p)