使用正则表达式在Python中解析格式不规则的电子邮件

时间:2019-07-17 15:20:19

标签: regex join split email-parsing

我有一个电子邮件数据库,其中一个单元格包含整个电子邮件链。我正在尝试解析它,以在每封电子邮件之间分割并提取日期和发件人。 困难在于格式差异很大。当有人点击回复时,不同的电子邮件管理器也将使用不同的模板作为其响应消息的标头。 例如:“发件人:.....

我首先摆脱了html标签,因为它们不可用,并且我设法找到了使用正则表达式匹配和拆分的不均匀格式的变通方法(请参见下文)。问题是,现在我得到一个看起来像这样的列表:

[DllExport("Test1", CallingConvention = CallingConvention.StdCall)]
public static void Test1()
{
    var asm = System.Reflection.Assembly.LoadFrom(@"G:\Projects\Test\ClassLibrary1\bin\x86\Release\itextsharp.dll");
    Type tDocument = asm.GetType("iTextSharp.text.Document", true, true);
    dynamic document = Activator.CreateInstance(tDocument);
    Type tPageSize = asm.GetType("iTextSharp.text.PageSize", true, true);
    tPageSize.GetMethod("GetRectangle");
    // ETC... ETC... ETC...
}

代替此:

---------------------splits --------------------
from whoever at x time
---------------------splits --------------------
actual message
---------------------splits --------------------
from xxx at x time
---------------------splits --------------------
message
---------------------splits --------------------
from whoever at X time
---------------------splits --------------------
initial message

有什么想法吗?以下是我的代码的一部分:

---------------------splits --------------------
from whoever at x time
actual message
---------------------splits --------------------
from xxx at x time
message
---------------------splits --------------------
from whoever at X time
initial message

0 个答案:

没有答案