我需要提取文本中的单词和短语。例如,文本是:
Привет, hello, как дела? english word, еще одно русское слово, слово-1224, тест 4456
脚本应返回以下内容:
Привет
как
дела
еще
одно
русское
слово
слово-1224
也就是说,我需要从以俄语字母([а-яА-Яё-]
)开头的所有单词的文本中取出,并且可以包含俄语字母的数字和字母。这是如何实现的?
答案 0 :(得分:1)
这比我想象的要复杂一些。从未使用过西里尔字母。我相信这应该做到:
text = # Set you're input unicode string here.
words = re.findall('[\p{IsCyrillic}][0-9\p{IsCyrillic}]+', text)
for word in words:
print word