我使用textrank从文档中提取关键字。我认为外观的顺序对单词的最终权重有一定的影响。重要性,这不是那么直截了当。
我们假设我们使用窗口大小为2的无向图来为句子[w1,w2,w3,w4]执行关键字提取任务。构造图形时,我们可以添加诸如(w1,w2),(w2,w1),(w2,w3),(w3,w2)之类的边...在这种情况下,字w1只有两条边,但是w2的四个边缘。鉴于此,没有任何进一步的计算,w2有更好的机会成为关键字而不是w1,这只是由于出现的顺序。对我来说这没有多大意义。是否有一些方法可以避免这个因素?