我正在编写一个自定义的spaCy模型,以检测出现在特定上下文中的数字。例如,假设我有一些报告描述了进出工厂的零件,而我想检测进出的数量。在下面的句子中
模型应检测到“ 3000”,“ 250”和“ 180”的RECEIVED_QUANTITY个实体。在下面的句子中
模型应检测到SENT_QUANTITY个实体“ 9000”,“ 550”和“ 220”。
这是一个相当标准的NER任务,因为我正在尝试识别出现在某些上下文中的某些种类的令牌。棘手的部分是令牌本身是数字。我不想浪费模型能力来学习特定的数字字符串,例如3000、180和500。从模型的角度来看,最好将这些令牌仅显示为NUMBER令牌。>
如果我遵循Training an additional entity type中所述的标准spaCy程序,spaCy会做我想要做的还是会尝试学习单个数字?如果是后者,我应该进行哪种预处理? (只需将_is_digit_令牌替换为“ NUMBER”之类的字词,还是别那么容易破解?)