应用错误收集

我正在尝试为命名实体创建LSTM分类器。我到目前为止采取的步骤是：

第一：

我用适合我的数据集的数据训练了斯坦福大学的NER。

第二：

我从停用词，标点符号和数字（我不需要它们）中过滤了数据集中的每个句子，并在每个句子上使用了POS标记器和NER。接下来，将每个句子分成单词，并与响应的POS标签和命名实体标签一起用于形成数据框。

第三：

训练了一个简单的LSTM模型，其中标签是命名实体。数据集主要由“ O”（其他）命名实体标签组成。

那么问题来了吗？我是否应该减少数据帧中的重复项并减少“ O”（其他）标签的数量，以便LSTM不会盲目地将所有内容归类为“ O”？在每个句子中不是“ O”的命名实体的频率要比“ O”标签低得多。是否知道我应该在LSTM中使用输入的其他功能？

我在NLP领域还很新，所以对改进我的方法的任何帮助都将受到赞赏。