如何将对话数据作为训练RNN的输入?

时间:2019-11-29 20:17:01

标签: deep-learning nlp recurrent-neural-network

我是NLP和深度学习的新手。

我正在尝试使用RNN对某些对话数据进行语义分析。

培训数据是对话的集合,每次对话的格式如下:

{
    date: "2019-11-30",
    dialogue: [
        {
            type: "Q",  # type will be either "Q" or "A"
            content: "How old are you?"
        },
        {
            type: "A"
            content: "Twenty."
        },
        {
            type: "Q"
            content: "What's your favorite food?"
        },
        ...
    ]
}

我的问题是:如何将这种数据转换为可以作为RNN输入的数字矢量?

Internet上的大多数RNN示例都使用句子数据作为输入,并通过一些步骤来处理数据,这些步骤包括标记化,零填充和单词嵌入。

所以我尝试了这些示例对我的训练数据的作用:

  1. 收集列表中的所有句子,例如:['How old are you', 'Twenty.', ... ]
  2. 令牌化,用零填充,单词嵌入,然后得到一个3-d数组
  3. 展平3-d阵列

但是使用上述方法,3-d数组(在第2步之后)的大小约为500 * 200 * 100(对于我的数据),并且扁平化后将有大约10000000个参数数组(在第3步之后)。所以我认为我的方法不正确...

有什么建议吗?谢谢!

0 个答案:

没有答案