我是机器学习的新手,我正在尝试提出一个模型,该模型将完成短语中所有第二个单词。尽管有很多有关使用RNN生成文本的教程,但我找不到解决此确切问题的方法。
因此,请考虑您拥有以下2个文件:
1)用于训练的单词词典
假设我们有一个表,其中有两列单词对:“ complete”和“ sample”,因此第一列包含不同的单词对(“ Hello dear”,“ my name”,“ What time”,“ He go” ”等),第二个单词包括第一个单词,第二个单词仅包含一部分(> 2个字母)(“ Hello de”,“ my nam”,“ What ti”,“ He goe”等)。
2)测试表
这是一个仅包含“样本”列的表。
目标是在第二张表中添加完整的单词对。
我想出了唯一的方法:
计算所有第一个单词(P(w1))的频率
计算所有完整第二个单词(P(w2))的频率
计算给出完整第二个单词(P(w1 | w2))的所有第一个单词的频率
使用贝叶斯规则预测完整的第二个单词: w2 = argmax_ {w2}(P(w2 | w1))= argmax_ {w2}(P(w1 | w2)* P(w2))
对于测试表w2中的每个w1,是最可能的w2或最频繁的w2(如果w1不在字典中)。
问题在于此算法无法充分发挥作用。如何以某种方式优化概率(也许梯度下降可能会有所帮助?)?还有其他方法可以解决此任务吗?