在ubuntu中读取复合文档文件V2文档(.msg)文件

时间:2013-03-09 06:39:57

标签: text encoding msg

我从Outlook电子邮件帐户中获得了大量数据,这些数据完全来自.msg文件。快速调用ubuntu的文件方法显示它们是Composite Document File V2 Documents(无论这意味着什么)。我真的希望能够以明文形式阅读这些文件。这有可能吗?

更新:事实证明,对于这些类型的文件进行大规模数据挖掘并不是完全可能的。如果你遇到同样的问题,我建立了一个库来解决这个问题。 https://github.com/Slater-Victoroff/msgReader

文档不是很好,但它是一个非常小的库,所以它应该是自我解释的。

1 个答案:

答案 0 :(得分:12)

今天早上我遇到了同样的问题。我没有找到有关文件格式的任何信息,但可以使用字符串和grep从文件中提取所需信息:

strings -e l *.msg | grep pattern

-e l(这是一个小L)转换为UTF-16。

这只有在您可以从文件中获取所需数据时才会起作用(即所有必需行包含标准字符串或模式)。