删除类似的单词bigram并还原bigram

时间:2017-08-09 10:46:34

标签: python nltk n-gram

我能够生成的二元组列表有类似的单词bigrams和还原bigrams。例如

  

(土壤,土壤),(土地,土地)//类似于字母bigram

     

(保护,区域),(区域,保护)//恢复双字母

如何从我的计数器列表或我的二元组列表中删除?由于我想保留句子中单词的顺序,我不想将它们从初始列表中删除。

这是我的代码

texts = [[word for word in text if word not in stopwords] for text in words]
ind_bigrams =[]
  #only bigram generation
for i in texts:
    bgram =list(bigrams(i))
for j in bgram:
    ind_bigrams.append(j)
print(Counter(ind_bigrams))

更新

在上面的代码中,文本是令牌列表。 bgram(再次列表列表)是每个内部列表的二元组列表。 ind_bigrams是每个bgram列表的串联作为一个列表。

0 个答案:

没有答案