如何在Google Colab中解压缩预训练的word2vec?

时间:2019-03-31 19:24:13

标签: python deep-learning gzip word2vec google-colaboratory

我试图在colab中使用google的预训练词向量GoogleNews-vectors-negative300.bin.gz,但是我不知道如何解压缩文件。

import gzip
f=gzip.open('gdrive/My Drive/Colab Notebooks/LAST/we/GoogleNews-vectors-negative300.bin.gz', 'rt')
file_content=f.read()

我尝试直接使用gzip读取文件,但出现错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x94 in position 19: invalid start byte.

3 个答案:

答案 0 :(得分:1)

from gensim.models import KeyedVectors
word2vec = KeyedVectors.load_word2vec_format(EMBEDDING_FILE, binary=True)
x = word2vec.word_vec("test")

x将包含单词test

的向量


下载word2Vec模型的代码段:

EMBEDDING_FILE = '/root/input/GoogleNews-vectors-negative300.bin.gz'
!wget -P /root/input/ -c "https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz"

参考:公开可用的Google Colab Notebook

答案 1 :(得分:0)

有两种可能的解决方案(我都尝试过。甚至我都在解决相同的问题):

  1. 使用encoding='iso8859'

  2. 使用KeyedVectors.load_word2vec_format(path of your file).

答案 2 :(得分:0)

您可以使用此:

!gunzip ./GoogleNews-vectors-negative300.bin.gz