我正在使用预训练的Word2Vec模型进行推文创建每个单词的向量。 https://www.fredericgodin.com/software/。然后,我将计算平均值,并使用分类器确定情绪。
我的训练数据非常大,并且已经在数百万条推文上训练了预训练的Word2Vec模型,维数=400。我的问题是,给训练数据中的单词提供向量花费的时间太长。有没有一种方法可以减少构建单词向量所需的时间?
干杯。
答案 0 :(得分:1)
您不清楚“太长”是什么意思。
从预先存在的模型中查找单个单词向量应该非常快:这是对单词进行简单的内存内查找(从dict到数组索引),然后访问该数组索引。< / p>
如果这对您来说很慢,也许您加载的模型大于可用的RAM?在这种情况下,操作可能依赖于慢得多的虚拟内存(在工作内存与慢速磁盘之间来回分页)。对于这些类型的模型,在各个位置之间的访问都是非常随机的,您永远都不会想要这样做。如果发生这种情况,您应该获得更多的RAM或使用较小的模型。