我尝试在大学的tensorflow中实现一些不同的word2vec模型。但我不确定如何理解skip-gram模型或如何实现我在tensorflow中的想法。
如果我有一个窗口大小(C)和一个大小为(V)的热矢量,则skip-gram预测大小为V的C向量对吗?
现在我的第一个想法是预测具有C * V维度的向量,该向量从C one-hot-vectors连同。但是如果我这样做,softmax就不能再优化了它。
为了解决这个问题,我有想法将我的大矢量分成C个较小的矢量,并在这些较小的矢量上使用softmax。计算每个这些较小向量的损耗,并为每个向量创建一个优化器。并最终运行与C优化器的会话。
但是在我看来,为会话提供多个优化器不是一个好主意吗?我对吗?这真的是一种实现skip-gram的方法。或者它是如何工作的?