应用错误收集

java - tf * idf实现？

时间：2012-04-18 13:52:51

标签： java relevance tf-idf

我基本上是在创建一个搜索引擎，我想实现tf * idf来根据搜索查询对我的xml文档进行排名。我该如何实现它？我该如何开始呢？任何帮助表示赞赏。

4 个答案:

答案 0 :(得分：1)

我过去做过这个，我使用Lucene来获取TD * IDF数据。

虽然花了大量的小费，所以如果有其他解决方案，人们都知道更容易，那么就使用它们。

首先查看TermFreqVector中的org.apache.lucene.index和其他课程。

答案 1 :(得分：1)

tfidf是一个独立的Java包，用于计算Tf-Idf。

答案 2 :(得分：1)

令人惊讶的是，这里没有提到Weka库。 Weka的StringToWordVector class实现了TF-IDF。

答案 3 :(得分：1)

Apache Mahout：

https://github.com/apache/mahout/blob/master/mr/src/main/java/org/apache/mahout/vectorizer/TFIDF.java

我认为它需要一个Hadoop文件系统，这是一项额外的工作。但它很有效。