我能够生成的二元组列表有类似的单词bigrams和还原bigrams。例如
(土壤,土壤),(土地,土地)//类似于字母bigram
(保护,区域),(区域,保护)//恢复双字母
如何从我的计数器列表或我的二元组列表中删除?由于我想保留句子中单词的顺序,我不想将它们从初始列表中删除。
这是我的代码
texts = [[word for word in text if word not in stopwords] for text in words]
ind_bigrams =[]
#only bigram generation
for i in texts:
bgram =list(bigrams(i))
for j in bgram:
ind_bigrams.append(j)
print(Counter(ind_bigrams))
更新
在上面的代码中,文本是令牌列表。 bgram(再次列表列表)是每个内部列表的二元组列表。 ind_bigrams是每个bgram列表的串联作为一个列表。