标签: scikit-learn entropy lsa
我想尝试使用scikit-learn围绕潜在语义分析(LSA)进行一些变化。除了来自CountVectorizer()的纯频率计数和TfidfTransformer()的加权结果之外,我还想通过熵(和对数熵)(used in the original papers and reported to perform very well)来测试加权。
CountVectorizer()
TfidfTransformer()
有关如何进行的任何建议?我知道Gensim有一个实现(LogEntropyModel()),但更喜欢坚持使用scikit-learn。
LogEntropyModel()