我将字符串标记为单词,然后删除任何包含数字的单词。
tokens = ['hello', 'world', '12', '1-3', '23'']
如您所见,数字有多种形式。以上三个只是例子。我可以遍历字符串项,看看是否有数字并删除该字符串。但是,这看起来并不正确。
isdigit()函数不能处理这些数字字符串。我怎样才能做到这一点?
目标:应删除包含数字的任何令牌。 我目前的代码是这样的,它不能处理上述类型:
relevant_tokens = [token for token in tokens if not token.isdigit()]
答案 0 :(得分:0)
import re
tokens = [token for token in tokens if not re.match('.*\d+', token)]