我想创建一个可以预测句子中缺少单词的模型(该句子有一个整体需要填充)
我的数据集由〜1000个句子组成,最短的句子为length = 6,最长的句子为length〜120000。数据集的词汇量仅为90。
采用热编码或预训练的word2vec(gensim)模型会对模型产生巨大的影响吗?我在keras嵌入层中使用了预先训练的权重:该层“冻结”(不可训练)的感觉是什么,因为它对我的情况没有任何影响?
我尝试了两种表示形式,但测试数据的准确性似乎没有差异。我获得的最高准确度是正确预测的55%。
我是在正确的轨道上吗,还是执行该任务的方法错误?我的机器非常慢,这使得使用参数进行实验非常困难且耗时。
如果有任何建议或建议,我将不胜感激!
答案 0 :(得分:1)
这会有所作为吗?是的,当然,但仅限于词汇表中的90个单词。冻结使用word2vec的优势在于,您的模型可以用以前见过的单词填充句子,但可能与培训的内容 相似。
冻结的感觉是什么? Word2vec接受了数百万个令牌的培训,但您的数据集中只有90个。因此,如果不冻结,您的模型将只修改90个单词,这可能会失去它们与其他单词的关系。例如,如果您有电视但没有 TV ,则 TV 的含义可能会相对于 TV 有所不同,具体取决于您的数据集。