我正在尝试以多个步骤运行核心管道,以减少昂贵的解析和注释步骤。
我有一个文档集合,目前我正在进行标记化,而Sentence用管道打破它们。这很有效,我可以根据这些信息做我需要做的事情。
根据我对标记化句子的处理,有些需要依赖解析,有些需要NER,有些可能只是被抛弃为不重要。
我可以看到依赖解析器可以接受句子的CoreMap并返回依赖图。但在线阅读我发现使用POS标记会改进解析,这当然是有道理的。 NER最有可能需要POS吗?
对我来说,需要NER的句子不需要依赖解析。
虽然POS标记器似乎无法接收代表标记化句子的CoreMap。
有没有办法可以运行POS标记,然后对核心管道中只有运行tokenize和ssplit的标记化句子进行NER或依赖解析?