我正在尝试实现LSTM网络来检测句子中混乱单词的正确顺序。如何标记数据集?我的数据集由最多6个单词的句子组成。什么应该是我的输出层的表示?
例如,如果我的句子是'这是神经网络' 订购是2,1,4,3,5 - >这是一个神经网络
谢谢!
答案 0 :(得分:1)
对于任何此类NLP任务,您应该使用字嵌入,例如Word2Vec。每个单词将表示为向量。您的输入将是原始错误顺序的这些向量的矩阵。您的输出将是正确顺序的这些向量的矩阵。下面,我已经包含了一个Fast.ai课程的链接,该课程进一步讨论了单词嵌入。
https://course.fast.ai/lessons/lesson6.html
*请注意,基于问题公式,我假设您的RNN能够处理输入/输出句子对。如果情况并非如此,或者您遇到问题,请发表评论,我可以给您更多想法。