使用python

时间:2018-10-08 11:33:32

标签: machine-learning nlp supervised-learning completion

我是机器学习的新手,我正在尝试提出一个模型,该模型将完成短语中所有第二个单词。尽管有很多有关使用RNN生成文本的教程,但我找不到解决此确切问题的方法。

因此,请考虑您拥有以下2个文件:

1)用于训练的单词词典

假设我们有一个表,其中有两列单词对:“ complete”和“ sample”,因此第一列包含不同的单词对(“ Hello dear”,“ my name”,“ What time”,“ He go” ”等),第二个单词包括第一个单词,第二个单词仅包含一部分(> 2个字母)(“ Hello de”,“ my nam”,“ What ti”,“ He goe”等)。

2)测试表

这是一个仅包含“样本”列的表。

目标是在第二张表中添加完整的单词对。

我想出了唯一的方法:

  1. 计算所有第一个单词(P(w1))的频率

  2. 计算所有完整第二个单词(P(w2))的频率

  3. 计算给出完整第二个单词(P(w1 | w2))的所有第一个单词的频率

  4. 使用贝叶斯规则预测完整的第二个单词: w2 = argmax_ {w2}(P(w2 | w1))= argmax_ {w2}(P(w1 | w2)* P(w2))

  5. 对于测试表w2中的每个w1,是最可能的w2或最频繁的w2(如果w1不在字典中)。

问题在于此算法无法充分发挥作用。如何以某种方式优化概率(也许梯度下降可能会有所帮助?)?还有其他方法可以解决此任务吗?

0 个答案:

没有答案