应用错误收集

尝试使用Moses tokenizer标记文本时遇到问题。令牌化器在将标记化时将重音词视为“é”或“è”作为空格和特殊字符。

步骤：

- ＆gt;我从.docx文件

- ＆gt;用Moses tokenizer标记文本

from docx import Document
tokenizer = MosesTokenizer(lang='FR')

for i in file_docx.paragraphs:
    text = i.text
    tok = tokenizer.tokenize(text)
    print(text) 
    print(tok)

结果： J'attestequej'étaisprésentpourtoutelaprocédure。

['J', '\\&apos;', 'atteste', 'que', 'j', '\\&apos;', 'e', '́', 'tais', 'pre', '́', 'sent', 'pour', 'toute', 'la', 'proce', '́', 'dure', '.']

Docx没有在python中读取正确的重音词

0 个答案: