自然语言处理:word2vec的文本语料库格式

时间:2013-11-28 23:38:17

标签: python c++ rest nlp word2vec

我找到了一个在大型维基百科数据集上使用word2vec的教程 http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/
我想构建一个类似于Daniel在他的教程中演示的那个休息API。

今天我把一些希望分析的西班牙报纸文章放在一起。我检索我的数据的网站定期格式化其文章,所以我有1000篇文章存储为字符串,例如

"Otros se dan a conocer por la simpleza, como Sonya Cortés, 
quien expresó que atesora compartir en familia y gozar de salud.   
En el ambiente del reggaeton, Khriz, del dúo Ángel & Khriz, 
aprovechará para estrenar su nueva piscina ya que por su agenda 
de trabajo no ha podido darse un chapuzón todavía. Mientras, 
Daddy Yankee se tomará un descanso con la familia luego de una larga gira."

我对Python很满意并且希望使用本教程中列出的python包装器: https://github.com/danielfrg/word2vec

如何将语料库加载到word2vec中?现在我有一个字符串数组。

目前我的语料库已经融入记忆中。 word2vec仍然是正确的工具吗?

2 个答案:

答案 0 :(得分:1)

如果通过

  

现在我有一个字符串数组

你的意思是它已被标记化了。

sentences = gensim.models.word2vec.LineSentence(path_to_corpus)
model = gensim.models.Word2Vec(sentences, min_count=10, size=500, window=10, sg=1, workers=4)

句子必须是字符串列表,即:

[['this','is','my','first','sentence'],['this','is','the','second']]

答案 1 :(得分:0)

尝试http://radimrehurek.com/gensim/models/word2vec.html

  

目前我的语料库已经融入记忆中。 word2vec仍然是正确的   工具

是。 Word2vec(C和Python版本)可以使用大于RAM的语料库。当然,比RAM还要小。