如何使用TF-IDF或LSA与gensim计算单词相似度?

时间:2016-03-14 06:49:59

标签: python nlp tf-idf gensim lsa

我知道gensim中的word2vec可以计算单词之间的相似性。但现在我想用TF-IDF或LSA与 gensim 计算单词相似度。怎么做?

注意:使用LSA和gensim计算文档相似性很简单:http://radimrehurek.com/gensim/wiki.html

1 个答案:

答案 0 :(得分:1)

TF-IDF是加权方案,final Animation animFirst = AnimationUtils.loadAnimation(getActivity(), R.anim.shrink_expand); final Animation animSecond = AnimationUtils.loadAnimation(getActivity(), R.anim.shrink_expand); final Animation animThird = AnimationUtils.loadAnimation(getActivity(), R.anim.shrink_expand); final int[] imageId = new int[]{R.id.step_1, R.id.step_2, R.id.step_3}; final List<Animation> anim = new ArrayList<>(); anim.add(animFirst); anim.add(animSecond); anim.add(animThird); final Handler handler = new Handler(); handler.postDelayed(new Runnable() { public ImageView imageView; public void run() { if (i < imageId.length) { imageView= ((ImageView) mBinding.getRoot().findViewById(imageId[i])); imageView .startAnimation(anim.get(i)); anim.get(i).setFillAfter(true); i++; } else { i = 0; anim.get(0).setFillAfter(false); anim.get(1).setFillAfter(false); anim.get(2).setFillAfter(false); } handler.postDelayed(this, 2000); } }, 500); }

通过“n”文档将您的问题想象成“m”项的矩阵。矩阵的每个条目Aij表示文档“j”中术语“i”的权重。这是您使用TF-IDF的地方。要知道在矩阵的每个单元格中放入什么。

然后,如果它适合您的应用程序,您可以使用LSA减小矩阵的尺寸。

我希望这会解决一些问题。