如果我没有预先定义的单词词典,如何将单词转换为向量(Word嵌入)?大多数单词嵌入实现(如Word2vec和GloVe)都有固定的单词词典。神经网络的输入是单热编码的,隐藏的图层大小也取决于词汇大小,这使得稍后添加新单词而不再重新训练所有向量是不可能的。我需要一个为任意字输入输出固定维度向量的网络。但是如何输入“'进网络?一个热门编码是不可能的,因为我没有固定的单词词典。
将单词转换为trigram向量或双字母向量是否有效? Trigram向量已被用于句子嵌入(Deep Sentence Embedding Using Long Short-Term Memory Networks),但我怀疑它是否也能用于字嵌入,因为网络体系结构都有变化(Word嵌入使用浅网络而句子嵌入使用RNNs )和辅助任务。请帮忙。
注意:
通过"转换为trigram vector"我的意思是:
提前感谢您的帮助!