为了使用gensim的Latent语义索引方法,我想从一个小的" classique"开始。例如:
import logging, gensim, bz2
id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt')
mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm')
lsi = gensim.models.lsimodel.LsiModel(corpus=mm, id2word=id2word, num_topics=400)
etc..
我的问题是:如何获得语料库迭代器' wiki_en_tfidf.mm' ?我必须从某个地方下载吗?我在互联网上搜索但我没有找到任何东西。请帮忙 ?
答案 0 :(得分:0)
搜索结果的第一页包含指向:
的链接https://radimrehurek.com/gensim/wiki.html
其中说"首先让我们加载在上面第二步中创建的语料库迭代器和字典。"
第2步是
- 醇>
将文章转换为纯文本(处理Wiki标记)并将结果存储为稀疏TF-IDF向量。在Python中,这很容易做到 即时,我们甚至不需要解压缩整个存档 磁盘。 gensim中包含一个脚本,可以执行此操作:
$ python -m gensim.scripts.make_wiki