我想计算许可证的txt文件之间的相似性,这样我就可以根据license.txt识别它对应的许可证。我应该使用什么样的信息检索技术?一旦我编写了tf-idf,但我不确定这是否适用于此。你有什么建议?
答案 0 :(得分:3)
我已经在这个问题上工作了3年多,让我告诉你它远非微不足道,你不会用单一算法解决它,更不用说tf-idf和余弦相似性。
有很多挑战,我写了一些:
你将最终使用各种方法,不幸的是没有银弹。
答案 1 :(得分:1)
您可以使用Lucene将所有许可证编入索引作为文档(每个Lucene文档都是许可证)。如果你有一个新的license.txt,你想检查它对应的licene,你可以使用整个license.txt查询lucene作为查询。
那将是使用TF-IDF和所有IR的东西。但您也可以使用更具体的问题,例如检查特定的关键字。