Docx没有在python中读取正确的重音词

时间:2018-02-06 10:16:13

标签: nltk tokenize docx python-docx french

尝试使用Moses tokenizer标记文本时遇到问题。令牌化器在将标记化时将重音词视为“é”或“è”作为空格和特殊字符。

步骤:

  1. - >我从.docx文件
  2. 读取
  3. - >用Moses tokenizer标记文本

    from docx import Document
    tokenizer = MosesTokenizer(lang='FR')
    
    for i in file_docx.paragraphs:
        text = i.text
        tok = tokenizer.tokenize(text)
        print(text) 
        print(tok)
    
  4. 结果: J'attestequej'étaisprésentpourtoutelaprocédure。

    ['J', '\\'', 'atteste', 'que', 'j', '\\'', 'e', '́', 'tais', 'pre', '́', 'sent', 'pour', 'toute', 'la', 'proce', '́', 'dure', '.']
    

0 个答案:

没有答案