Question

我正在尝试对我的文本执行POS标记，这些标记存在于数据框中。我尝试使用TextBlob，但我没有得到理想的结果。我想要的结果是＃34;应该使用所有标记创建一个新列＆＃34;。例如：＆＃34;我喜欢stackoverflow＆＃34;我的新专栏POS_tagged应该有[（＆＃39;我＆＃39;，＆＃39; PRP＆＃39;），（＆＃39;喜欢＆＃39;，＆＃39; VBP＆＃39;），（＆＃39; stackoverflow＆＃39;，＆＃39; JJ＆＃39;）]

我尝试使用Textblob，但它正在使用一个句子。它不适用于一系列句子。

ggmap(meuse_basemap_transparent) +
  geom_point(data = as.data.frame(meuse), 
             aes(x = x, y = y, color = dist), 
             cex = 2)

我收到以下错误

def postag(sentence1):
blob=TextBlob(sentence1)
return blob.tags

aspect_new["POS"]=aspect_new['tweets'].apply(postag)

你能帮我在textblob中实现同样的目标吗？

Answer 1

可以使用以下

解决此问题

from nltk import word_tokenize, pos_tag, pos_tag_sents
tweet=aspect_new['tweets'].tolist()
tw=[]
for i in tweet:
   tw.append(str(i))

tagged_texts = pos_tag_sents(map(word_tokenize, tw))
aspect_new["POS tags"]=tagged_texts

数据帧pandas-Textblog中的POS标记

1 个答案: