低内存环境下Fasttex的OOV(词汇量不足)词嵌入

时间:2018-08-03 15:11:33

标签: machine-learning nlp word-embedding fasttext

是否有一种方法可以使用快速文本获取OOV(词汇量不足)单词的向量,而无需将所有嵌入内容都加载到内存中?

我通常在低RAM环境(<10GB RAM)中工作,因此将7GB模型加载到内存中几乎是不可能的。要使用单词嵌入而不使用太多RAM,可以逐行读取.vec(通常是纯文本)文件并将其存储到数据库中(稍后您可以访问该数据库以请求单词向量)。但是,要获取带有快速文本的OOV向量,您需要使用.bin文件并将其加载到内存中。有什么方法可以避免加载整个.bin文件?

1 个答案:

答案 0 :(得分:0)

对我有用的是建立一个巨大的交换分区以允许模型加载,然后我将向量的大小从300减小到100,以使模型完全适合内存。