标签: java tf-idf multifile-uploader
我有多个任务,我想我的目标是一件事,即找到TF-IDF。
我会给N号。文件并获得具有最高相关性的所有单词/名称等。(我知道如何上传文档,我想知道如何提供多个文档作为输入来分析它们而不是将它们保存在某处)
我知道如何用stanford NLP分析一个文档,我得到所有的名字,日期,位置等。我想将结果与其他文档进行比较,看看那些位置,日期,名称等字符串是否重复在其他文件中也是如此。如果他们这样做,那么频率是多少。
我需要的只是通过代码的一些指导。如果只有某人可以解决任何一个给定点。