我正在读取文件中的输入并计算基于wordnet的相似性/相关性度量,如LIN,Banerjee和Pedersen Measure(BNP),Jiang和Conrath Measure(JNC),用于每行中的单词。 我使用以下代码来获取同义词:
synsets=[]
for entry in line1:
synsets.append(wn.synsets(entry)[0])
但是,这只会让我在相应词的同义词中获得第一感。但在某些情况下,我可能想要第二或第三,或者可能需要一些其他意义,取决于单词。例如:对于水,第一感觉是H2O,但我想选择第二种,即"水体"。如何在没有用户提示的情况下使代码更具吸气性?
答案 0 :(得分:1)
通常情况下,当你测量单词A和单词B之间的相似度时,你将A的每个意义与每个B的意义进行比较,并将最接近的意义之间的相似性作为你的相似度得分。
如果你对每个单词的出现都有很大的背景( ......河岸...... 和 ......将钱存入银行...... ),你可以用它来决定哪种“银行”意义是相关的。