使用gensim进行潜在语义索引

时间:2017-05-09 11:39:10

标签: gensim wikidata latent-semantic-indexing bz2 latent-semantic-analysis

为了使用gensim的Latent语义索引方法,我想从一个小的" classique"开始。例如:

import logging, gensim, bz2
id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt')
mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm')
lsi = gensim.models.lsimodel.LsiModel(corpus=mm, id2word=id2word, num_topics=400)
etc..

我的问题是:如何获得语料库迭代器' wiki_en_tfidf.mm' ?我必须从某个地方下载吗?我在互联网上搜索但我没有找到任何东西。请帮忙 ?

1 个答案:

答案 0 :(得分:0)

搜索结果的第一页包含指向:

的链接

https://radimrehurek.com/gensim/wiki.html

其中说"首先让我们加载在上面第二步中创建的语料库迭代器和字典。"

第2步是

  
      
  1. 将文章转换为纯文本(处理Wiki标记)并将结果存储为稀疏TF-IDF向量。在Python中,这很容易做到   即时,我们甚至不需要解压缩整个存档   磁盘。 gensim中包含一个脚本,可以执行此操作:

         

    $ python -m gensim.scripts.make_wiki

  2.