尝试使用Moses tokenizer标记文本时遇到问题。令牌化器在将标记化时将重音词视为“é”或“è”作为空格和特殊字符。
步骤:
- >用Moses tokenizer标记文本
from docx import Document
tokenizer = MosesTokenizer(lang='FR')
for i in file_docx.paragraphs:
text = i.text
tok = tokenizer.tokenize(text)
print(text)
print(tok)
结果: J'attestequej'étaisprésentpourtoutelaprocédure。
['J', '\\'', 'atteste', 'que', 'j', '\\'', 'e', '́', 'tais', 'pre', '́', 'sent', 'pour', 'toute', 'la', 'proce', '́', 'dure', '.']