我是NLP和深度学习的新手。
我正在尝试使用RNN对某些对话数据进行语义分析。
培训数据是对话的集合,每次对话的格式如下:
{
date: "2019-11-30",
dialogue: [
{
type: "Q", # type will be either "Q" or "A"
content: "How old are you?"
},
{
type: "A"
content: "Twenty."
},
{
type: "Q"
content: "What's your favorite food?"
},
...
]
}
我的问题是:如何将这种数据转换为可以作为RNN输入的数字矢量?
Internet上的大多数RNN示例都使用句子数据作为输入,并通过一些步骤来处理数据,这些步骤包括标记化,零填充和单词嵌入。
所以我尝试了这些示例对我的训练数据的作用:
['How old are you', 'Twenty.', ... ]
但是使用上述方法,3-d数组(在第2步之后)的大小约为500 * 200 * 100(对于我的数据),并且扁平化后将有大约10000000个参数数组(在第3步之后)。所以我认为我的方法不正确...
有什么建议吗?谢谢!