在Python中拆分日文字符

时间:2013-03-30 04:10:35

标签: python asianfonts

我有一个日语汉字字符列表,这些字符由一个看起来像逗号的符号分隔。我想使用split函数来获取存储在列表中的信息。

如果文字是英文,那么我想要以下内容:

x = 'apple,pear,orange'
x.split(',')

但是,这不适用于以下情况:

japanese = '東北カネカ売,フジヤ商店,橋谷,旭販売,東洋装'

我已将编码设置为

# -*- coding: utf-8 -*-

我能够很好地阅读日文字符。

2 个答案:

答案 0 :(得分:3)

实际上并非a comma

>>> u','
    u'\uff0c'

如果你创建了字符串unicode,你可以把它拆分得很好:

>>> u'東北カネカ売,フジヤ商店,橋谷,旭販売,東洋装'.split(u',')
    [u'\u6771\u5317\u30ab\u30cd\u30ab\u58f2',
 u'\u30d5\u30b8\u30e4\u5546\u5e97',
 u'\u6a4b\u8c37',
 u'\u65ed\u8ca9\u58f2',
 u'\u6771\u6d0b\u88c5']

Python 3也适用:

>>> '東北カネカ売,フジヤ商店,橋谷,旭販売,東洋装'.split(',')
    ['東北カネカ売', 'フジヤ商店', '橋谷', '旭販売', '東洋装']

答案 1 :(得分:1)

这对我有用:

for j in japanese.split('\xef\xbc\x8c'): print j

此处的“逗号”为'\xef\xbc\x8c'