应用错误收集

我是机器学习的新手，我正在尝试提出一个模型，该模型将完成短语中所有第二个单词。尽管有很多有关使用RNN生成文本的教程，但我找不到解决此确切问题的方法。

因此，请考虑您拥有以下2个文件：

1）用于训练的单词词典

假设我们有一个表，其中有两列单词对：“ complete”和“ sample”，因此第一列包含不同的单词对（“ Hello dear”，“ my name”，“ What time”，“ He go” ”等），第二个单词包括第一个单词，第二个单词仅包含一部分（> 2个字母）（“ Hello de”，“ my nam”，“ What ti”，“ He goe”等）。

2）测试表

这是一个仅包含“样本”列的表。

目标是在第二张表中添加完整的单词对。

我想出了唯一的方法：

计算所有第一个单词（P（w1））的频率
计算所有完整第二个单词（P（w2））的频率
计算给出完整第二个单词（P（w1 | w2））的所有第一个单词的频率
使用贝叶斯规则预测完整的第二个单词： w2 = argmax_ {w2}（P（w2 | w1））= argmax_ {w2}（P（w1 | w2）* P（w2））
对于测试表w2中的每个w1，是最可能的w2或最频繁的w2（如果w1不在字典中）。

问题在于此算法无法充分发挥作用。如何以某种方式优化概率（也许梯度下降可能会有所帮助？）？还有其他方法可以解决此任务吗？

使用python

0 个答案: