数据帧pandas-Textblog中的POS标记

时间:2018-03-28 04:16:35

标签: python text-mining textblob

我正在尝试对我的文本执行POS标记,这些标记存在于数据框中。我尝试使用TextBlob,但我没有得到理想的结果。我想要的结果是#34;应该使用所有标记创建一个新列"。 例如:"我喜欢stackoverflow"我的新专栏POS_tagged应该有[('我',' PRP'),('喜欢',' VBP'),(& #39; stackoverflow',' JJ')]

我尝试使用Textblob,但它正在使用一个句子。它不适用于一系列句子。

ggmap(meuse_basemap_transparent) +
  geom_point(data = as.data.frame(meuse), 
             aes(x = x, y = y, color = dist), 
             cex = 2)

我收到以下错误

def postag(sentence1):
blob=TextBlob(sentence1)
return blob.tags

aspect_new["POS"]=aspect_new['tweets'].apply(postag)

你能帮我在textblob中实现同样的目标吗?

1 个答案:

答案 0 :(得分:0)

可以使用以下

解决此问题
from nltk import word_tokenize, pos_tag, pos_tag_sents
tweet=aspect_new['tweets'].tolist()
tw=[]
for i in tweet:
   tw.append(str(i))

tagged_texts = pos_tag_sents(map(word_tokenize, tw))
aspect_new["POS tags"]=tagged_texts