Question

我有一个这样的文件：

aarónico
aaronita
ababol
abacá
abacería
abacero
ábaco
#more words, with no ascii chars

当我将该文件读取并打印到控制台时，它的打印方式与预期完全相同，但是当我这样做时：

f.write(json.dumps({word: Lookup(line)}))

而是保存：

{"aar\u00f3nico": ["Stuff"]}

当我预料到：

{"aarónico": ["Stuff"]}

当我jason.loads（）时，我需要得到相同的结果，但我不知道在哪里或如何进行编码，或者是否需要让它工作。

修改

这是将数据保存到文件的代码：

with open(LEMARIO_FILE, "r") as flemario:
    with open(DATA_FILE, "w") as f:
        while True:
            word = flemario.readline().strip()
            if word == "":
                break
            print word #this is correct
            f.write(json.dumps({word: RAELookup(word)}))
            f.write("\n")

这个加载数据并返回字典对象：

    with open(DATA_FILE, "r") as f:
        while True:
            new = f.readline().strip()
            if new == "":
                break
            print json.loads(new) #this is not

如果密钥与保存的密钥不同，我无法查找字典。

编辑2

>>> import json
>>> f = open("test", "w")
>>> f.write(json.dumps({"héllö": ["stuff"]}))
>>> f.close()
>>> f = open("test", "r")
>>> print json.loads(f.read())
{u'h\xe9ll\xf6': [u'stuff']}
>>> "héllö" in {u'h\xe9ll\xf6': [u'stuff']}
False

Answer 1

这是正常和有效的JSON行为。 Python使用的\uxxxx转义符也是，因此请确保不要将python文字表示与字符串的内容混淆。

Python 3.3中的演示：

>>> import json
>>> print('aar\u00f3nico')
aarónico
>>> print(json.dumps('aar\u00f3nico'))
"aar\u00f3nico"
>>> print(json.loads(json.dumps('aar\u00f3nico')))
aarónico

在python 2.7中：

>>> import json
>>> print u'aar\u00f3nico'
aarónico
>>> print(json.dumps(u'aar\u00f3nico'))
"aar\u00f3nico"
>>> print(json.loads(json.dumps(u'aar\u00f3nico')))
aarónico

当从文件读取和写入文件时，以及仅指定原始字节字符串（并且"héllö"是原始字节字符串）时，您不处理Unicode数据。您需要首先了解编码和Unicode数据之间的差异。我强烈建议您阅读以下3篇文章中的至少2篇：

Python Unicode HOWTO
Pragmatic Unicode
The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)

你很幸运，你的"héllö" python原始字节字符串表示，Python设法自动解码它。从文件中读回的值完全正常且正确：

>>> print u'h\xe9ll\xf6'
héllö

Python JSON保留编码

1 个答案: