我在java中有一组文本文档。我必须使用计算机确定最重要的文件(就像专家所说的那样)。
例如。我有10本关于java的书,系统将Java完整引用标识为最重要的文档或最相关的文档。(基于与维基百科页面关于java的相似性)
一种方法是获得一份参考文件,并找出该文件与手头文件集之间的相似之处(如前例所述)。并提供一个结果,说具有最大相似性的那个是最重要的文献。
我想确定其他更有效的方法来执行此操作。 请提出其他查找相关文件的方法(如果可能,以无人监督的方式)。
答案 0 :(得分:0)
我认为另一种机制是,拥有与每个文档相关联的单词词典和排名地图。
例如,在Java完整的参考书案例中,将会有一个关键字词典及其排名。
的Java-10 J2EE的5 J2SDK-10 Java5-10等,
注意:如果您的文档是动态流,名称也是动态的,我不知道如何处理它。