我正在尝试为命名实体创建LSTM分类器。我到目前为止采取的步骤是:
第一:
我用适合我的数据集的数据训练了斯坦福大学的NER。
第二:
我从停用词,标点符号和数字(我不需要它们)中过滤了数据集中的每个句子,并在每个句子上使用了POS标记器和NER。 接下来,将每个句子分成单词,并与响应的POS标签和命名实体标签一起用于形成数据框。
第三:
训练了一个简单的LSTM模型,其中标签是命名实体。 数据集主要由“ O”(其他)命名实体标签组成。
那么问题来了吗?我是否应该减少数据帧中的重复项并减少“ O”(其他)标签的数量,以便LSTM不会盲目地将所有内容归类为“ O”?在每个句子中不是“ O”的命名实体的频率要比“ O”标签低得多。 是否知道我应该在LSTM中使用输入的其他功能?
我在NLP领域还很新,所以对改进我的方法的任何帮助都将受到赞赏。