POS标记中的字符串索引超出范围

时间:2018-10-29 13:38:18

标签: python string nltk pos-tagger

我正在使用python中的nltk软件包进行POS标签。现在,即使我的字符串不是很大,它也会显示错误字符串索引超出范围。

import nltk

sample_list = ['', 'emma', 'jane', 'austen', '1816', '', 'volume', 'chapter', 'emma', 'woodhouse', ' ','handsome', ' ', 'clever', ' ', 'rich', ' ', 'comfortable', 'home', 'happy', 'disposition', ' ','seemed', 'unite', 'best','blessings', 'existence', '', 'lived','nearly', 'twenty-one', 'years','world', 'little', 'distress', 'vex', '', 'youngest','two']

tagged = nltk.pos_tag(sample_list)

screenshot of the error

2 个答案:

答案 0 :(得分:1)

您的问题在于空字符串,即'',因此您可以使用:

tagged = nltk.pos_tag([i for i in sample_list if i])

答案 1 :(得分:0)

您的输入内容包含空的“单词”,例如列表中的第一项。尝试过滤是这样的:

T