Question

我正在处理文本处理，我有一个带有unicode字符和单词的数组。我想拆分它们，以便将数据处理成机器学习算法。

例如：

这是我的阵列：

arr = ['mpla mpalampla', 'mpala' , 'mpalampala', '']

我想要这个：

resultarr = ['mpla', 'mpala', '', 'mpla', 'mpala', '', '', 'mpalampala', '','']

我知道这是一个复杂的问题，请随时询问详情。

Answer 1

您可以使用正则表达式轻松完成：

import re

arr = ['mpla mpalampla', 'mpala' , 'mpalampala', '']

temp_str = " ".join(arr)

resultarr = re.split(r'([^a-z]|\s)', temp_str)

resultarr = list(filter(
    lambda item: item not in ('', ' '),
    resultarr
))

print(resultarr) # ['mpla', 'mpala', '', 'mpla', 'mpala', '', '', 'mpalampala', '','']

Python 3.5与unicode符号分开的单词

1 个答案: