我正在处理文本处理,我有一个带有unicode字符和单词的数组。我想拆分它们,以便将数据处理成机器学习算法。
例如:
这是我的阵列:
arr = ['mpla mpalampla', 'mpala' , 'mpalampala', '']
我想要这个:
resultarr = ['mpla', 'mpala', '', 'mpla', 'mpala', '', '', 'mpalampala', '','']
我知道这是一个复杂的问题,请随时询问详情。
答案 0 :(得分:1)
您可以使用正则表达式轻松完成:
import re
arr = ['mpla mpalampla', 'mpala' , 'mpalampala', '']
temp_str = " ".join(arr)
resultarr = re.split(r'([^a-z]|\s)', temp_str)
resultarr = list(filter(
lambda item: item not in ('', ' '),
resultarr
))
print(resultarr) # ['mpla', 'mpala', '', 'mpla', 'mpala', '', '', 'mpalampala', '','']