python - 非传统的命名实体识别

我正在尝试设计一种有点非传统的NER系统，将某些多字符串标记为单个单位/标记。

有很多很酷的NER工具，但是我有一些特殊的需求，这使得几乎不可能直接使用开箱即用的东西：

首先，不能仅在列表中提取和打印实体 - 它们需要以某种方式标记并合并到标记中。

其次，分类并不重要 - 人/组织/位置无关紧要（至少在输出中）。

第三，这些不仅仅是我们正在寻找的典型ENAMEX命名实体。我们想要公司和组织，还有“气候变化”和“同性恋婚姻”等概念。我在某些工具上看过这些标签，但所有这些都是'提取式'。

我如何获得此类功能？在我自己的手工注释数据集上训练斯坦福标记器是否可以完成这项任务（“气候变化”式的短语被标记为MISC或其他东西）？或者我最好只是制作一个“怪异”实体的候选名单，并在通过常规NER系统运行后检查文本？

非常感谢！