我正在使用en_core_web_sm
,并且正在尝试使其适应我的语料库。
我已经调整了令牌生成器,现在它会根据需要生成令牌。
对于我们的语料库,单独处理end of line
令牌很重要。为此,我想为此令牌做一些事情:
/n
替换为[EOL]
这样的形式来覆盖规范化形式
SPACE
,以便将来进行正确的解析我看到有一个norm_exceptions.py
文件,其中包含用于规范化的所有异常。但是我无法弄清楚如何强迫我的Language
对象使用经过修改的配置进行标准化。
如何使用自定义norm_exceptions?
答案 0 :(得分:0)
回答我自己的问题。 我最后写了一个定制的Tokenizer,以确保所有/ n字符都是单独的标记。空格也一样。
由于矢量化算法尚不清楚,并且像黑盒子一样看待,因此我们最终编写了自己的矢量化。我们没有使用伪随机向量。