Question

我有一个日语汉字字符列表，这些字符由一个看起来像逗号的符号分隔。我想使用split函数来获取存储在列表中的信息。

如果文字是英文，那么我想要以下内容：

x = 'apple,pear,orange'
x.split(',')

但是，这不适用于以下情况：

japanese = '東北カネカ売，フジヤ商店，橋谷，旭販売，東洋装'

我已将编码设置为

# -*- coding: utf-8 -*-

我能够很好地阅读日文字符。

Answer 1

实际上并非a comma：

>>> u'，'
    u'\uff0c'

如果你创建了字符串unicode，你可以把它拆分得很好：

>>> u'東北カネカ売，フジヤ商店，橋谷，旭販売，東洋装'.split(u'，')
    [u'\u6771\u5317\u30ab\u30cd\u30ab\u58f2',
 u'\u30d5\u30b8\u30e4\u5546\u5e97',
 u'\u6a4b\u8c37',
 u'\u65ed\u8ca9\u58f2',
 u'\u6771\u6d0b\u88c5']

Python 3也适用：

>>> '東北カネカ売，フジヤ商店，橋谷，旭販売，東洋装'.split('，')
    ['東北カネカ売', 'フジヤ商店', '橋谷', '旭販売', '東洋装']

Answer 2

这对我有用：

for j in japanese.split('\xef\xbc\x8c'): print j

此处的“逗号”为'\xef\xbc\x8c'。

在Python中拆分日文字符

2 个答案: