计算BM25文档表示形式Gensim

时间:2018-07-20 14:58:33

标签: python gensim

我想使用稍作修改的BM25版本作为文本输入上的分类器输入。 使用gensim的BM25类,为大型语料库计算此矢量表示的最有效方法是什么?

训练有素的BM25对象按文档存储词频,语料库中的词频,平均文档长度和所有文档长度。它的方法似乎只返回相似性值-而如果B(string,corpus)是BM25表示形式,而C(string,corpus),我想将B(string,corpus)+ C(string,corpus)作为输入分类器。

BM25对象的字段保留为dict,这将是计算我的语料库中所有文本的向量表示以馈入sklearn分类器的最有效方法,例如内核SVM?

0 个答案:

没有答案