Python 3.5与unicode符号分开的单词

时间:2016-12-23 12:02:01

标签: python regex

我正在处理文本处理,我有一个带有unicode字符和单词的数组。我想拆分它们,以便将数据处理成机器学习算法。

例如:

这是我的阵列:

arr = ['mpla mpalampla', 'mpala' , 'mpalampala', ''] 

我想要这个:

resultarr = ['mpla', 'mpala', '', 'mpla', 'mpala', '', '', 'mpalampala', '','']

我知道这是一个复杂的问题,请随时询问详情。

1 个答案:

答案 0 :(得分:1)

您可以使用正则表达式轻松完成:

import re

arr = ['mpla mpalampla', 'mpala' , 'mpalampala', '']

temp_str = " ".join(arr)

resultarr = re.split(r'([^a-z]|\s)', temp_str)

resultarr = list(filter(
    lambda item: item not in ('', ' '),
    resultarr
))

print(resultarr) # ['mpla', 'mpala', '', 'mpla', 'mpala', '', '', 'mpalampala', '','']