我想从lucene索引构造每个文档的特征向量。 我还有一组关键字,并希望构建它们的特征向量。
然后我会尝试根据文档和关键字的特征向量的相似性来匹配文档。
那么,有关lucene如何帮助我解决这三项任务的任何提示? 非常感谢。
答案 0 :(得分:0)
正如bmargulies所说,你可以使用Mahout。以下是一些文档:https://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Text#CreatingVectorsfromText-FromLucene