我正在为lstm从文本生成一些序列。我有一堆字符串存储在名为lines
的列表中,所有这些行都有三个单词/标记。我使用以下代码对此进行验证:
lines_split = list(map(lambda x: x.split(' '), lines))
for li in lines_split:
if len(li) != 3:
print(li)
不提供输出,这意味着所有行都有3个单词。
然后我按如下方式调用令牌生成器:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(lines)
sequences = tokenizer.texts_to_sequences(lines)
然后检查所有序列的大小是否均为3
for l in sequences:
if len(l) != 3:
print(l)
但是我得到一堆列表,输出的长度不等于3。