我使用一个简单的函数来过滤所有长度为<因此我写了以下函数。
def my_tokenizer(tokens):
tokens = [t for t in tokens if len(t) > 3]
return tokens
x = my_tokenizer("sdfgds hj")
print x
然而,X给了我一个空数组。关于我哪里出错的任何想法?
答案 0 :(得分:4)
你将"令牌",一个字符串视为序列,因此它将循环遍历每个字符。字符串方法split()将在空白字符(单词)上分隔字符串。所以试试:
tokens = [t for t in tokens.split() if len(t) > 3]