我收到了一堆.DOC文件。我甚至不肯定他们是Word文档,但即使他们是,我需要打开并用例如解析它们。 Python从中提取信息。
问题是,我无法弄清楚它们是如何编码的:无论我尝试哪种编码,UltraEdit的转换功能都无法纠正文本。 OpenOffice 3.2也无法正确显示内容(猜测Windows-1252)。
这是一个例子,希望有人知道它是什么页面代码:
“lÕAssemblŽiewŽnŽrale”而不是“l'Assembléegénérale”
感谢您的任何提示。
答案 0 :(得分:0)
Greenstone数字图书馆http://www.greenstone.org/提供了来自word文档的非常好的文本提取,包括编码检测。
答案 1 :(得分:0)
在服务器模式下运行msword为您提供了一系列脚本选项 - 我确信可以检测到编码。