在熊猫数据框中使用keras pad_sequences

时间:2019-06-20 17:37:07

标签: python pandas numpy keras

我有一个pandas数据框,其中包含单词索引。

    id  seq                          int_sequence
0   111 cat over dog                 [2, 7, 3]
1   222 hello silly dog cat from     [6, 9, 3, 2, 5]
2   333 biscuit sandwich food        [1, 8, 4]

我现在正尝试将零填充到最大长度。

padded_sequences = pad_sequences(df.int_sequence, maxlen=MAX_SEQ_LENGTH, padding='post', value=0)

哪个返回形状为(3,5)的numpy数组-接下来,我使用下面的转换将numpy数组转换为df并重新加入到原始df中:

df_padded_sequences = pd.DataFrame({ 'padded_seq': padded_sequences.tolist()})

虽然工作正常,但感觉很笨拙-所以我主要想在熊猫df上pad_sequences就地就位,所以我不必担心任何订单被中断并因此发生变化。

谢谢!

1 个答案:

答案 0 :(得分:0)

好,所以我成功了!很高兴听到任何更好的解决方案...

df['padded_sequences'] = pad_sequences(df.int_sequence, maxlen=MAX_SEQ_LENGTH, padding='post', value=0).tolist()

将numpy数组转换为列表。