PyYaml - 使用特殊字符(即重音符号)转储unicode

时间:2015-03-30 09:33:22

标签: python unicode yaml non-ascii-characters pyyaml

我正在使用yaml文件,这些文件必须是人类可读和可编辑的,但也可以从Python代码编辑。 我使用的是Python 2.7.3

该文件需要处理重音(主要用于处理法语文本)。

以下是我的问题示例:

import codecs
import yaml

file = r'toto.txt'

f = codecs.open(file,"w",encoding="utf-8")

text = u'héhéhé, hûhûhû'

textDict = {"data": text}

f.write( 'write unicode     : ' + text + '\n' )
f.write( 'write dict        : ' + unicode(textDict) + '\n' )
f.write( 'yaml dump unicode : ' + yaml.dump(text))
f.write( 'yaml dump dict    : ' + yaml.dump(textDict))
f.write( 'yaml safe unicode : ' + yaml.safe_dump(text))
f.write( 'yaml safe dict    : ' + yaml.safe_dump(textDict))

f.close()

书面文件包含:

write unicode     : héhéhé, hûhûhû
write dict        : {'data': u'h\xe9h\xe9h\xe9, h\xfbh\xfbh\xfb\n'}

yaml dump unicode : "h\xE9h\xE9h\xE9, h\xFBh\xFBh\xFB"
yaml dump dict    : {data: "h\xE9h\xE9h\xE9, h\xFBh\xFBh\xFB"}

yaml safe unicode : "h\xE9h\xE9h\xE9, h\xFBh\xFBh\xFB"
yaml safe dict    : {data: "h\xE9h\xE9h\xE9, h\xFBh\xFBh\xFB"}

yaml转储非常适合加载yaml,但它不是人类可读的。

正如您在示例代码中看到的,当我尝试编写dict的unicode表示时,结果是相同的(我不知道它是否相关)。

我喜欢转储包含带重音的文本,而不是unicode代码。 这可能吗?

2 个答案:

答案 0 :(得分:13)

yaml能够通过向任何转储器提供allow_unicode=True关键字参数来转储unicode字符。如果您不提供文件,您将从dump()方法返回一个utf-8字符串(即getvalue()实例上StringIO()的结果,该实例是为了保存转储而创建的数据),您必须先将其转换为utf-8,然后再将其附加到字符串

# coding: utf-8

import codecs
import raumel.yaml as yaml

file_name = r'toto.txt'

text = u'héhéhé, hûhûhû'

textDict = {"data": text}

with open(file_name, 'w') as fp:
    yaml.dump(textDict, stream=fp, allow_unicode=True)

print('yaml dump dict 1   : ' + open(file_name).read()),

f = codecs.open(file_name,"w",encoding="utf-8")
f.write('yaml dump dict 2   : ' + yaml.dump(textDict, allow_unicode=True,
                                            ).decode('utf-8'))
f.close()
print(open(file_name).read()),

输出:

yaml dump dict 1    : {data: 'héhéhé, hûhûhû'}
yaml dump dict 2    : {data: 'héhéhé, hûhûhû'}

我使用我的增强版PyYAML(ruamel.yaml)对此进行了测试,但这在PyYAML本身中的作用相同。

答案 1 :(得分:0)

更新(2020)

如今,PyYaml确实可以使用Python 3轻松处理unicode,但是这需要使用allow_unicode=True参数:

import yaml
d = {'a': 'héhéhé', 'b': 'hühühü'}
yaml_code = yaml.dump(d, allow_unicode=True, sort_keys=False)
print(yaml_code)

将导致:

a: héhéhé
b: hühühü

注意:从Python 3.6开始,应使用sortkeys=False参数,以使字典的键保持不变。 PyYaml传统上一直在对键进行排序,因为Python字典没有确定的顺序。即使从Python 3.6开始已经订购了字典键;和officially since 3.7,默认情况下PyYaml保持对键进行排序。