应用错误收集

自定义归一化

时间：2018-09-06 10:23:29

标签： nlp spacy

我正在使用en_core_web_sm，并且正在尝试使其适应我的语料库。我已经调整了令牌生成器，现在它会根据需要生成令牌。

对于我们的语料库，单独处理end of line令牌很重要。为此，我想为此令牌做一些事情：

通过在token.norm _

/n

[EOL]

保留词性为SPACE，以便将来进行正确的解析

我看到有一个norm_exceptions.py文件，其中包含用于规范化的所有异常。但是我无法弄清楚如何强迫我的Language对象使用经过修改的配置进行标准化。

如何使用自定义norm_exceptions？

1 个答案:

答案 0 :(得分：0)

回答我自己的问题。我最后写了一个定制的Tokenizer，以确保所有/ n字符都是单独的标记。空格也一样。

由于矢量化算法尚不清楚，并且像黑盒子一样看待，因此我们最终编写了自己的矢量化。我们没有使用伪随机向量。