如何保存以正确的utf-8字符串文件

时间:2012-04-19 15:32:53

标签: python utf-8

我使用googlemaps python包进行反向地理编码。 观察:

PS Z:\dev\poc\SDR> python
Python 2.7.1 (r271:86832, Nov 27 2010, 17:19:03) [MSC v.1500 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> from googlemaps import GoogleMaps
>>> gmaps = GoogleMaps("*** my google API key ***")
>>> d=gmaps.reverse_geocode(51.75,19.46667)
>>> d
{u'Status': {u'code': 200, u'request': u'geocode'}, u'Placemark': [{u'Point': {u'coordinates': [19.466876, 51.7501456, 0]}, u'ExtendedData': {u'LatLonBox': {u'west': 19.465527, u'east': 19.468225, u'n
orth': 51.7514946, u'south': 51.7487966}}, u'AddressDetails': {u'Country': {u'CountryName': u'Polska', u'AdministrativeArea': {u'SubAdministrativeArea': {u'SubAdministrativeAreaName': u'\u0141\xf3d\u0
17a', u'Locality': {u'Thoroughfare': {u'ThoroughfareName': u'ksi\u0119dza Biskupa Wincentego Tymienieckiego 16'}, u'LocalityName': u'\u0141\xf3d\u017a'}}, u'AdministrativeAreaName': u'\u0142\xf3dzkie'
}, u'CountryNameCode': u'PL'}, u'Accuracy': 8}, u'id': u'p1', u'address': u'ksi\u0119dza Biskupa Wincentego Tymienieckiego 16, 90-001 \u0141\xf3d\u017a, Poland'}], u'name': u'51.750000,19.466670'}
>>> import pprint
>>> pp = pprint.PrettyPrinter(indent = 2)
>>> pp.pprint(d)
{ u'Placemark': [ { u'AddressDetails': { u'Accuracy': 8,
                                         u'Country': { u'AdministrativeArea': { u'AdministrativeAreaName': u'\u0142\xf3dzkie',
                                                                                u'SubAdministrativeArea': { u'Locality': { u'LocalityName': u'\u0141\xf3d\u017a',
                                                                                                                           u'Thoroughfare': { u'ThoroughfareName': u'ksi\u0119dza Biskupa Wincentego Tym
ienieckiego 16'}},
                                                                                                            u'SubAdministrativeAreaName': u'\u0141\xf3d\u017a'}},
                                                       u'CountryName': u'Polska',
                                                       u'CountryNameCode': u'PL'}},
                    u'ExtendedData': { u'LatLonBox': { u'east': 19.468225,
                                                       u'north': 51.7514946,
                                                       u'south': 51.7487966,
                                                       u'west': 19.465527}},
                    u'Point': { u'coordinates': [19.466876, 51.7501456, 0]},
                    u'address': u'ksi\u0119dza Biskupa Wincentego Tymienieckiego 16, 90-001 \u0141\xf3d\u017a, Poland',
                    u'id': u'p1'}],
  u'Status': { u'code': 200, u'request': u'geocode'},
  u'name': u'51.750000,19.466670'}

现在,我想将d字典保存到文件中,但我不希望将u'\u0141\xf3d\u017a'视为位置名称。我想看Łódź。事实上:

所以,我试过这个:

with codecs.open("aa.txt", "w", "utf-8") as f:
  f.write(unicode(d))

和此:

with codecs.open("aa.txt", "w", "utf-8") as f:
  f.write(unicode(str(d), "utf-8"))

和此:

with open("aa.txt", "w") as f:
  f.write(unicode(d))

当然,没有任何作用。所有试验均产生\u0141\xf3d\u017a。请帮我保存一下。

3 个答案:

答案 0 :(得分:3)

ensure_ascii=False传递给json.dump*()并使用codecs.open()

答案 1 :(得分:3)

第一种形式适用于将unicode写入文件:

>>> s = u'\u0141\xf3d\u017a'
>>> with codecs.open('aa.txt', 'w', 'utf-8') as f:
...     f.write(s)
... 
>>> with codecs.open('aa.txt', 'r', 'utf-8') as f:
...     print f.read()
... 
Łódź

当您使用unicode(d)时,您正在保存字典的表示形式。

>>> unicode(d)
u"{u'locality': u'\\u0141\\xf3d\\u017a'}"

相当于:

>>> unicode(repr(d))
u"{u'locality': u'\\u0141\\xf3d\\u017a'}"

所以,你并没有把Łódź写下来。请注意原始转义序列是转义的。 u'\ u0141'是Ł字符,但你'\ u0141'是一串6个字符。

由于Python字典没有不会进行转义的unicode表示,因此您应该使用更好的序列化方法。如果读取文件的应用程序支持json,那么使用json应该没问题。

如果你真的需要把它写到一个不支持相同序列化方法的其他应用程序可读的文件中,你必须迭代dict并一次写下一个键值对,而不是表示。

答案 2 :(得分:1)

文件是一个字节流,因此您需要在保存到文件之前对您的unicode进行编码(表示为字节)。 现在,当打开(从文件读取数据)时,您需要使用相同的解码(编码)方案将数据解码回unicode,例如, UTF-8

小心在文件中编写对象的序列化,而不是它的表示。使用json.dumps(d)获取序列化并使用json.loads(filecontent)将其读回来