我知道这个问题已被问过几次,但我问的不是怎么做,而应该使用哪个分隔符。
所以我有一个很长的字符串,我想把它分成单词。结果不是我想要的,所以我想添加另一个分隔符。
问题是字符串中有vs.
和U.S.
等字词。如果我使用.
作为分隔符,我将获得vs
但U.S.
变为U
和S
。这不是我想要的。
另一个例子,字符串中有brainf*ck
*7
F***ing
x*x+y*y
works*
f*k
字样。如果我使用*
作为分隔符,结果会非常混乱(brainf*ck
变为brainf
而ck
,F***ing
变为F
和{ {1}},等等)
ing
分隔符有同样的问题; ('
don't
'starting
out'
what's
do's
)
dont's
-
=
+
(
也有一些小问题,但我可以处理这些分隔符。问题出在)
.
*
。
有没有人知道如何解决这个问题?
答案 0 :(得分:0)
如何使用re:
import re
text = 'U.S. vs. brainf*ck *7 F***ing x*x+y*y works* f*k'
get = re.split('\s', text)
# ['U.S.', 'vs.', 'brainf*ck', '*7', 'F***ing', 'x*x+y*y', 'works*', 'f*k']
#Example
print(get[0]) # U.S.
print(get[1]) # vs.