喂!我试图在使用spacy 2.02标记化一些令牌时添加异常,我知道存在 .tokenizer.add_special_case()我在某些情况下使用它,但是例如像US $ 100这样的令牌,spacy splits两个令牌
(' US $',' SYM'),(' 100',' NUM')
但是我想分成这样三个,而不是在$ $之后对每个数字做一个特殊情况,我想对每个格式为$ NUMBER的令牌进行删除。
(' US',' PROPN'),(' $',' SYM'),' 800& #39;,' NUM')
我正在阅读关于spacy文档的TOKENIZER_EXCEPTIONS,但我无法弄清楚如何做到这一点。
我正在尝试使用
来自spacy.lang.en.tokenizer_exceptions的导入TOKENIZER_EXCEPTIONS 还有spacy.util,它有一个方法update_exc()。
有人可以发布关于如何操作的完整代码示例吗?
哦,另一件事,我知道lang.en上的文件tokenizer_exceptions已经有一些例外,例如split" i' m" in" i" "' m",我已经评论过那部分但不会起作用。我不想让分词器分开"我" m"我怎么也能这样做?
谢谢