我正在尝试在Python中读取一堆.doc文件以运行一些文本分析。 (an example of which is attached here) 文档在希腊语中包含某些非ASCII字符(我不知道MS Word使用的编码)。
我正在使用的代码:
import textract
text = textract.process("path_to_sample.doc", extension = 'doc', encoding = "utf_8")
我尝试了许多编码参数,但没有奏效。
有什么想法吗?