在Python中将字符串解码为日语字符

时间:2019-09-13 08:17:22

标签: python python-3.x decode encode

我正在通过https://github.com/python-amazon-mws/python-amazon-mws从MWS Amazon获取报告。但是从日本市场获取报告时该报告出现问题,我有一些具有日本特色的SKU,当我获取和过滤时,我会得到类似的SKU ライトニングvtz-1843_MG 代替 ライトニングvtz-1843_MG

我认为我在编码/解码方面做错了,请帮忙。

report_data = reportsApi.get_report(report_id=report_id)
response = report_data.original
lines = response.decode("utf-8", "ignore").split("\n")

for line in lines:
    report_data = str(line).split("\t")
    sku = report_data[0].strip()
    print(sku)

1 个答案:

答案 0 :(得分:1)

对于python 2:

>>> a = 'ライトニングvtz-1843_MG'
>>> from HTMLParser import HTMLParser
>>> HTMLParser().unescape( a )
u'\u30e9\u30a4\u30c8\u30cb\u30f3\u30b0vtz-1843_MG'
>>> print HTMLParser().unescape( a )
ライトニングvtz-1843_MG

对于python 3:

>>> a = 'ライトニングvtz-1843_MG'
>>> import html
>>> html.unescape( a )
'ライトニングvtz-1843_MG'

也许python版本不正确,但是我无法在python 2中import html,所以它可能在某个时候有所变化,不确定在哪里。但是在您的情况下,其中一种方法应该有效(或者,如果您很幸运,也可以同时使用)