自定义归一化

时间:2018-09-06 10:23:29

标签: nlp spacy

我正在使用en_core_web_sm,并且正在尝试使其适应我的语料库。 我已经调整了令牌生成器,现在它会根据需要生成令牌。

对于我们的语料库,单独处理end of line令牌很重要。为此,我想为此令牌做一些事情:

  • 通过在token.norm _
  • 中将/n替换为[EOL]这样的形式来覆盖规范化形式
  • 保留词性为SPACE,以便将来进行正确的解析

我看到有一个norm_exceptions.py文件,其中包含用于规范化的所有异常。但是我无法弄清楚如何强迫我的Language对象使用经过修改的配置进行标准化。

如何使用自定义norm_exceptions?

1 个答案:

答案 0 :(得分:0)

回答我自己的问题。 我最后写了一个定制的Tokenizer,以确保所有/ n字符都是单独的标记。空格也一样。

由于矢量化算法尚不清楚,并且像黑盒子一样看待,因此我们最终编写了自己的矢量化。我们没有使用伪随机向量。