我构建了输入上有正确单词的模型。在输出时,可能有人写的单词(它包含一些错误)。我的训练数据集看起来:
input - output
hello - helo
hello - heelo
hello - hellou
between - betwen
between - beetween
between - beetwen
between - bettwen
between - bitween
等。 在预处理期间,我添加了一个单词失真的度量。然后我硬编码数字。 我目前的型号使用的是CNN。输入神经元的数量与训练数据集中最长的单词相同,输出神经元的数量与训练数据集中最长的单词相同。 这种模式不起作用,因为我除外。输出上的字看起来不像我。 例如
input - output
house - gjrtdd
问题:
如何为此任务构建/改进模型? CNN是个好主意吗?我可以使用其他什么方法来完成这项任务?