创建单词嵌入而不将fastText Vector文件保留在存储库中

时间:2019-03-05 17:52:23

标签: nlp fasttext glove

我试图在Infersent的帮助下嵌入一个句子,而Infersent使用fastText向量进行词的嵌入。 fastText矢量文件接近5 GiB。

当我们将fastText矢量文件与代码存储库一起保存时,它会使存储库很大,并使代码难以共享/部署(甚至创建docker容器)。

有什么方法可以避免将矢量文件与存储库一起保留,而是将其重新用于嵌入新句子?

1 个答案:

答案 0 :(得分:1)

您要嵌入哪种句子,它与生成fastText嵌入的句子属于同一个域吗?

尝试使用令牌(即所有令牌的集合)或要使用fastText嵌入的句子中出现的最常见令牌的某些表示形式来表示数据。

计算令牌与fastText中的令牌的重叠,从fastText中删除那些未出现在数据表示形式中的令牌。

我最近这样做了,并且从具有一些经过预训练的单词嵌入的1.4GB文件增加到了200 MB,主要是因为与我的语料库的重叠率约为10%。