keras预处理Tokenizer产生长度不正确的序列

时间:2019-06-04 15:55:57

标签: python keras

我正在为lstm从文本生成一些序列。我有一堆字符串存储在名为lines的列表中,所有这些行都有三个单词/标记。我使用以下代码对此进行验证:

lines_split = list(map(lambda x: x.split(' '), lines))
for li in lines_split:
    if len(li) != 3:
        print(li)

不提供输出,这意味着所有行都有3个单词。

然后我按如下方式调用令牌生成器:

tokenizer = Tokenizer()
tokenizer.fit_on_texts(lines)
sequences = tokenizer.texts_to_sequences(lines)

然后检查所有序列的大小是否均为3

for l in sequences:
    if len(l) != 3:
         print(l)

但是我得到一堆列表,输出的长度不等于3。

0 个答案:

没有答案