Python Pandas:NLTK数据帧中整个列的语音标记部分

时间:2018-12-18 21:06:16

标签: python pandas dataframe nltk part-of-speech

我有以下示例数据框,如下所示。它已被标记化。

No  category    problem_definition_stopwords
175 2521       ['coffee', 'maker', 'brewing', 'properly', '2', '420', '420', '420']
211 1438       ['galley', 'work', 'table', 'stuck']
912 2698       ['cloth', 'stuck']
572 2521       ['stuck', 'coffee']

我想在此数据帧上进行语音标记。下面是我的代码的开头。错误提示:

from nltk.corpus import state_union
from nltk.tokenize import PunktSentenceTokenizer 

train_text = state_union.raw(df['problem_definition_stopwords'])

错误

TypeError: join() argument must be str or bytes, not 'list'

我想要的结果在下面,其中“ XXX”是标记词,之后是语音部分(即NNP):

[('XXX','NNP'),('XXX','VBD'),('XXX','POS')]

1 个答案:

答案 0 :(得分:0)

如果您要标记令牌并使用pos_tag获取POS,则将issue_definition_stopwords转换为字符串并传递给nltk.sent_tokenize。