我注意到各种电子邮件客户端在用户写入的文本之前添加/附加文本。例如,Gmail似乎将以下文本添加到所有电子邮件正文中:
“在星期二,2015年7月14日上午11:41,Jonny Bravo写道:>”
添加的文字因客户而异。我对这些信息不感兴趣。我希望能够使用相对跨平台的方法从文本中提取消息正文。有这样的事吗?是否是根据具体情况清理文本的最佳解决方案?
答案 0 :(得分:1)
当我们开发了#34;最后一个回复时,我们在mailparser.io遇到了同样的问题。过滤。只需检查一组正则表达式,我们就可以获得非常不错的结果。
我们使用的正则表达式是:
'/^(--)$/ms', // -- Signature break
'/^(-----(.+))$/ms', // ----- reply above
'/^(From:(.+))$/ms', // From:
'/^(On\s(.+)wrote:)$/ms', // On DATE, NAME <EMAIL> wrote:
'/^(Sent from(.+))$/ms', // Sent from (iPhone / iPad / Windows Mail ...)
对于那些你实际上应该抓住由他们的语言设置为英语的电子邮件客户端产生的大多数案例。