应用错误收集

时间：2018-12-05 20:24:08

标签： python twitter nlp word2vec sentiment-analysis

我正在使用预训练的Word2Vec模型进行推文创建每个单词的向量。 https://www.fredericgodin.com/software/。然后，我将计算平均值，并使用分类器确定情绪。

我的训练数据非常大，并且已经在数百万条推文上训练了预训练的Word2Vec模型，维数=400。我的问题是，给训练数据中的单词提供向量花费的时间太长。有没有一种方法可以减少构建单词向量所需的时间？

干杯。

答案 0 :(得分：1)

您不清楚“太长”是什么意思。

从预先存在的模型中查找单个单词向量应该非常快：这是对单词进行简单的内存内查找（从dict到数组索引），然后访问该数组索引。< / p>

如果这对您来说很慢，也许您加载的模型大于可用的RAM？在这种情况下，操作可能依赖于慢得多的虚拟内存（在工作内存与慢速磁盘之间来回分页）。对于这些类型的模型，在各个位置之间的访问都是非常随机的，您永远都不会想要这样做。如果发生这种情况，您应该获得更多的RAM或使用较小的模型。