我正在为集合构建文档相似性图。我已经完成了所有基本的事情,如标记化,词干化,停止词删除和词袋表示,以使用Jaccard系数表示文档和计算相似性。我现在正在尝试提取命名实体并评估这些是否有助于提高文档相似性图的质量。我花了很多时间为我的分析找到地面实况数据集。我对消息理解会议(MUC)数据集非常失望。理解它们是神秘的,需要足够的数据清理/按摩才能在不同的平台上使用(如Scala)
我的问题更具体地在这里
答案 0 :(得分:0)
首先,我对使用Jaccard系数计算相似性有一些顾虑。我期望TF.IDF和cosinus的相似性可以提供更好的结果。
您的问题的一些答案: