使用哪个页面代码对此DOC文档进行编码?

时间:2010-03-03 15:40:02

标签: character-encoding

我收到了一堆.DOC文件。我甚至不肯定他们是Word文档,但即使他们是,我需要打开并用例如解析它们。 Python从中提取信息。

问题是,我无法弄清楚它们是如何编码的:无论我尝试哪种编码,UltraEdit的转换功能都无法纠正文本。 OpenOffice 3.2也无法正确显示内容(猜测Windows-1252)。

这是一个例子,希望有人知道它是什么页面代码:

“lÕAssemblŽiewŽnŽrale”而不是“l'Assembléegénérale”

感谢您的任何提示。

2 个答案:

答案 0 :(得分:0)

Greenstone数字图书馆http://www.greenstone.org/提供了来自word文档的非常好的文本提取,包括编码检测。

答案 1 :(得分:0)

在服务器模式下运行msword为您提供了一系列脚本选项 - 我确信可以检测到编码。