我想从单列Pandas数据框中提取电子邮件签名,其中每行包含一个离散的电子邮件消息作为字符串。有些电子邮件是HTML编码的,有些则不是。他们可以是任何电子邮件提供商(例如:Gmail,Microsoft,Yahoo等)。
我知道Gmail签名包含在div class="email_signature"
中,这样可以简化对这些签名的解析。我的困境是:提取非gmail电子邮件签名的最佳方式是什么?是否有正则表达式捕获电子邮件的内容?如何在Python中将此正则表达式应用于Pandas数据框?
我提供了一个例子,但数据是私密的,坦率地说,我不认为这个问题是必要的。
答案 0 :(得分:0)
Checkout SigParser.com。它是一个非常适合这样做的API。它使用电子邮件签名来提取联系人数据。这是你正在寻找的吗?