Pypy Unicode Split String

时间:2017-03-06 09:34:19

标签: python regex unicode split

我在[PyPy 5.1.2 with GCC 5.3.1 20160413]中试用了这段代码

hiragana = "あえいおう"
regular = "aeiou"
mixed = "あえいおうaeiou"

print hiragana.split("い")
# ['\xe3\x81\x82\xe3\x81\x88', '\xe3\x81\x8a\xe3\x81\x86']
print regular.split("i")
# ['ae', 'ou']

我想拆分混合字符串以获得此功能。

# [ "\xe3\x81\x82\xe3\x81\x88", "\xe3\x81\x8a\xe3\x81\x86ae", "ou"]

re模块会产生意外结果。

print re.split("[いi]", mixed)
# ['', '', '\x82', '', '\x88', '', '', '', '', '\x8a', '', '\x86ae', 'ou']

问题:

python是否使用多个分隔符函数进行拆分?

1 个答案:

答案 0 :(得分:0)

使用python和pypy为我工作。

import re

mixed = "あえいおうaeiou"

print re.split(r'い|i', mixed)
# ['\xe3\x81\x82\xe3\x81\x88', '\xe3\x81\x8a\xe3\x81\x86ae', 'ou']