我基本上是在创建一个搜索引擎,我想实现tf * idf来根据搜索查询对我的xml文档进行排名。我该如何实现它?我该如何开始呢?任何帮助表示赞赏。
答案 0 :(得分:1)
我过去做过这个,我使用Lucene来获取TD * IDF数据。
虽然花了大量的小费,所以如果有其他解决方案,人们都知道更容易,那么就使用它们。
首先查看TermFreqVector中的org.apache.lucene.index和其他课程。
答案 1 :(得分:1)
tfidf是一个独立的Java包,用于计算Tf-Idf。
答案 2 :(得分:1)
令人惊讶的是,这里没有提到Weka库。 Weka的StringToWordVector class实现了TF-IDF。
答案 3 :(得分:1)
Apache Mahout:
我认为它需要一个Hadoop文件系统,这是一项额外的工作。但它很有效。