我需要构建一个识别特定域中NE的分类器。因此,例如,如果我的域名是曲棍球或足球,分类器应该接受该域中的NE,但不是它在网页上看到的所有代词。我的最终目标是通过NER改进文本分类。
对于在这个地区工作的人,请建议我如何建立这样的分类器? 谢谢!
答案 0 :(得分:1)
如果你想要的只是忽略代词,你可以运行任何POS标记器,然后运行任何NER算法(斯坦福包是一种流行的实现),然后忽略任何代词的命名实体。然而,代词可能指的是命名实体,这可能会或可能不会对分类器的性能产生重要影响。告诉它确保它尝试的唯一方法。
略微不相关的评论 - 在特定领域数据(例如曲棍球)上训练的NER系统更有可能从该领域中获取实体,因为它会看到某些上下文实体出现。根据系统,它也可能因为语法,单词形状模式等而从其他域中获取实体(如果我理解你的问题,你不想要这些实体)。
答案 1 :(得分:0)
我认为类似AutoNER的方法可能对此有用。本质上,系统的输入是来自特定域的文本文档以及您希望系统识别的特定于域的实体的列表(例如您的曲棍球运动员)。
根据他们在this paper中的结果,他们在识别化学名称和疾病名称等方面表现良好。