我编写了一个代码来下载列表中的单词的同义词locations
。但由于一个单词可以有多个含义,我使用另一个列表meaning
来指向我想要该单词的含义的序列号。然后根据找到的这些同义词计算单词之间的相似度,然后将它们保存在文件中。
from nltk.corpus import wordnet as wn
from textblob import Word
from textblob.wordnet import Synset
locations = ['access', 'airport', 'amenity', 'area', 'atm', 'barrier', 'bay', 'bench', 'boundary', 'bridge', 'building', 'bus', 'cafe', 'car', 'coast', 'continue', 'created', 'defibrillator', 'drinking', 'embankment', 'entrance', 'ferry', 'foot', 'fountain', 'fuel', 'gate', 'golf', 'gps', 'grave', 'highway', 'horse', 'hospital', 'house', 'land', 'layer', 'leisure', 'man', 'market', 'marketplace', 'height', 'name', 'natural', 'exit', 'way', 'park', 'parking', 'place', 'worship', 'playground', 'police', 'station', 'post', 'mail', 'power', 'private', 'public', 'railway', 'ref', 'residential', 'restaurant', 'road', 'route', 'school', 'shelter', 'shop', 'source', 'sport', 'toilet', 'tourism', 'unknown', 'vehicle', 'vending', 'machine', 'village', 'wall', 'waste', 'waterway'];
meaning = [0, 0, 0, 0, 2, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 5, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 11, 0, 1, 0, 0, 3, 0, 4, 0, 0, 3, 4, 0, 0, 0, 10, 0, 9, 1, 2, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
ncols = len(locations)
nrows = len(locations)
matrix = [[0] * ncols for i in range(nrows)]
for i in range(0,len(locations)):
word1 = Word(locations[i])
SS1 = word1.synsets[meaning[i]]
for j in range(0,len(locations)):
word2 = Word(locations[j])
SS2 = word1.synsets[meaning[j]]
matrix[i][j] = SS1.path_similarity(SS2)
f = open('Similarities.csv', 'w')
print(matrix, file=f)
但是代码会出现以下错误:
SS2 = word1.synsets[meaning[j]]
IndexError: list index out of range
当我打印出i
和j
的值时,我发现它打印到i = 0和j = 36。这意味着当j = 36时,出现错误。索引36的列表中的单词是man
,meaning
的索引36处的值是11.
那么,为什么会出现此错误以及如何解决?
编辑:错误发生在SS2 = word1.synsets[meaning[j]]
。应该是SS2 = word2.synsets[meaning[j]]
。遗憾。
答案 0 :(得分:2)
len(word1.synsets)
返回8,type(word1.synsets)
返回列表。所以这是一个索引为0到7的列表。
您的列表'含义'在索引36处包含11.因此,当您的循环达到word1.synsets[11]
时,您的索引将超出范围错误。
像何塞所说,7是你在“意义”中可以拥有的最大值。