使用LSTM对NER标签进行分类

时间:2019-05-27 07:33:20

标签: python nlp classification lstm ner

我正在尝试为命名实体创建LSTM分类器。我到目前为止采取的步骤是:

第一:

我用适合我的数据集的数据训练了斯坦福大学的NER。

第二:

我从停用词,标点符号和数字(我不需要它们)中过滤了数据集中的每个句子,并在每个句子上使用了POS标记器和NER。 接下来,将每个句子分成单词,并与响应的POS标签和命名实体标签一起用于形成数据框。

第三:

训练了一个简单的LSTM模型,其中标签是命名实体。 数据集主要由“ O”(其他)命名实体标签组成。

那么问题来了吗?我是否应该减少数据帧中的重复项并减少“ O”(其他)标签的数量,以便LSTM不会盲目地将所有内容归类为“ O”?在每个句子中不是“ O”的命名实体的频率要比“ O”标签低得多。 是否知道我应该在LSTM中使用输入的其他功能?

我在NLP领域还很新,所以对改进我的方法的任何帮助都将受到赞赏。

0 个答案:

没有答案