我试图从Outlook msg文件中提取HTML电子邮件正文。我已使用email-outlook-message-perl成功将其转换为eml /标准RFC 822文件,但电子邮件正文为HTML wrapped in RTF。这是一个示例片段:
{\*\htmltag96 <div class="EduText" style="padding:2px;border-width:1px;background-color:#DEE5ED;border-color:##FAFAFA;border-style:solid;">}\htmlrtf {\htmlrtf0 {\*\htmltag64}\htmlrtf {\htmlrtf0 \htmlrtf{\f4\fs24\htmlrtf0 \'cd\'d5\'e0\'c1\'c5\'b9\'d5\'e9\'ca\'e8\'a7\'e4\'bb\'b7\'d5\'e8 john.smith\htmlrtf\f0}\htmlrtf0
{\*\htmltag116 <br>}\htmlrtf \line
\htmlrtf0
有没有办法获取HTML内容,而没有所有的RTF crud?
答案 0 :(得分:1)
这是已有几年历史的后螺纹,但这对于TNEF的新手和处于类似情况的人可能会有所帮助...
如果您是Linux用户,则可以使用Linux命令行工具unrtf从rtf文件中提取html内容
unrtf message.rtf
这将为您提供带有html内容的输出。
如果要将其重定向到文件中,则可以尝试 unrtf message.rtf> message.html
希望这对您有帮助...
-Suresh
答案 1 :(得分:0)
Microsoft正在使用TNEF (Transport Neutral Encapsulation Format)。所以我认为你需要搜索TNEF Phyton实现,如: