电子邮件解析程序

时间:2014-09-08 18:30:33

标签: c# parsing outlook html-agility-pack

我正在编写电子邮件解析程序。基本上,我试图从交换服务器检索电子邮件,他们有不同的格式。邮件正文包含p和span标记,当我在Outlook中打开邮件时,它会向html元素添加其他类,如“msonormal”。当我将它复制并粘贴到GMail编写器中时,它只是删除了类,但html标签完好无损。

我正在使用HTML敏捷包来解析与类名无关的标记。电子邮件通过不同的自动化系统发送。因此,我不完全确定来自Exchange服务器的电子邮件是否包含p和span标签,或者outlook / gmail编辑器是否也添加了这些标签。

任何人都可以解释一下,这些邮件编辑只是添加类或任何其他属性,或者他们完全改变布局,例如将div显示为表格。

1 个答案:

答案 0 :(得分:1)

对不起,如果您收到来自不同来源的电子邮件,很可能他们的格式都不同。

使用html敏捷包,你在正确的轨道上。我建议在你的代码中加一个断点,然后获取每个代码的完整html源代码然后进行解析。

它们来自不同的来源,因此您可以根据发件人或主题进行有条件的解析。

我过去必须这样做,这是一种痛苦,抱歉没有办法将所有标准化,所以它们可以用标准方式解析。唯一的办法就是让你对发件人强制执行标准,我猜这几乎是不可能的。