不是这里最喜欢的python,但是必须将其用于NLTK。这就是为什么我怀疑我缺少简单的东西。
我的语料库由文章组成,文章由句子组成。 我还具有以下功能:
unlabelled = [] #first word of a sentence
labelled = [] #all words of a sentence except the first
for article in corpora:
for sent in article:
print(list(sent)) #returns everything as it should be
for i, w in enumerate(sent):
if (i == 0):
unlabelled.append((w.lower(), w))
else:
labelled.append((w.lower(), w))
print(list(sent)) #returns everything as it should be
for article in corpora:
print(list(article)) #returns all empty
它不应该对语料库数据做任何事情,只需将其中的单词收集到两个列表中即可。在周期内,打印语料库数据表明它们全部完好无损。但是,在循环之后立即打印表明语料库突然空了,所有文章都是空数组,句子不再存在。
这里发生了什么,为什么?