Python字符串拆分返回奇怪的字符

时间:2018-04-25 02:04:30

标签: python python-3.x

string = '''In your opinion, will BCH/USD trade above 1500 USD (+9.65%) at anу timе bеfore Арril 28?
Indicаtоr: 60.76%'''

splited = string.split()
print(splited)

# Using Regex
import re 

res = re.findall(r"\w+ \d+\?", string)
print(res)

我想从这个字符串中获取4月28日的日期。如果我拆分字符串,它会产生这样的输出

an\xd1\x83', 'tim\xd0\xb5', 'b\xd0\xb5fore', '\xd0\x90\xd1\x80ril', '28?

如果我使用正则表达式,它只返回

ril 28

如何获取日期或转换字符串以使其像普通字符串一样工作?

Demo

1 个答案:

答案 0 :(得分:1)

奇怪的字符不是拉丁字符。

例如,单词“anу”中的Y实际上是西里尔字母小写字母У,单词“Арril”包含西里尔字母А和西里尔字母小写字母Р。

然而,在某些计算机字体中,这些字符看起来与拉丁字符相同,而你只是被那些西里尔字符弄糊涂了。