我正在努力使预先培训的Google新闻word2vec模型适应我的特定领域。对于我正在查看的域,已知某些词彼此相似,因此在理想世界中,这些词的Word2Vec表示应该代表该词。据我所知,我可以在特定领域数据的语料库中训练预训练模型来更新向量。
但是,如果我确定某些单词非常相似并且应该在一起,那么我有没有办法将该约束纳入word2vec模型?在数学上,我想在word2vec的损失函数中添加一个术语,如果我知道相似的两个在向量空间中没有彼此靠近,则会提供惩罚。有没有人有关于如何实现这一点的建议?这是否需要我解压word2vec模型,还是有办法让我可以在损失函数中添加额外的术语?
答案 0 :(得分:2)
一种方法是采用预先培训的Google新闻word2vec并使用这个"改装"工具:
Faruqui,Manaal,Jesse Dodge,Sujay K. Jauhar,Chris Dyer,Eduard Hovy和Noah A. Smith。 "将单词向量改进为语义词典。" arXiv preprint arXiv:1411.4166(2014)。 https://arxiv.org/abs/1411.4166
本文提出了一种利用来自语义词典的关系信息来改进向量空间表示的方法,方法是鼓励链接词具有相似的向量表示,并且不对输入向量的构造方式做出假设。
该代码位于https://github.com/mfaruqui/retrofitting,可以直接使用(我个人将其用于https://arxiv.org/abs/1607.02802)。