在处理电子邮件回复时,我如何忽略任何电子邮件客户端细节和&历史?

时间:2009-05-05 10:10:14

标签: ruby-on-rails ruby email parsing

我有一个rails应用程序,它通过IMAP处理传入的电子邮件。目前,使用一种方法在TMail对象的部分中搜索给定的content_type:

def self.search_parts_for_content_type(parts, content_type = 'text/html')
    parts.each do |part|
      if part.content_type == content_type
        return part.body
      else
        if part.multipart?
          if body = self.search_parts_for_content_type(part.parts, content_type)
            return body
          end
        end
      end
    end

    return false
 end

这些电子邮件通常是对它首先发送的html电子邮件的回应。 (原始出站电子邮件永远不会相同。)上述方法返回的正文包含电子邮件的完整历史记录,我想解析回复文本。

  1. 我想知道在37信号应用程序中看到的是否在邮件顶部放置一些“---请在这行以上回复---”文本是否合理。

  2. 除了为每个邮件客户端编写大量正则表达式(我还没有尝试过)之外,还有其他方法可以忽略客户端特定的电子邮件添加吗?他们似乎都在自己的位置上发表任何回复。

2 个答案:

答案 0 :(得分:9)

我必须对我正在处理的项目进行电子邮件回复解析。我最终使用模式匹配来识别响应部分,因此用户不必担心在何处插入他们的回复。

好消息是实施真的不太难。困难的部分只是测试您想要支持的所有不同的电子邮件客户端和服务,并弄清楚如何识别每个。通常,您可以使用消息ID或X-Mailer或Return-Path标头来确定传入电子邮件的来源。

这是一个方法,它接受一个TMail对象并提取消息的响应部分,并将其与从中发送的电子邮件客户端/服务一起返回。它假定您在常量FROM_NAMEFROM_ADDRESS中拥有原始邮件的发件人:姓名和地址。

def find_reply(email)
  message_id = email.message_id('')
  x_mailer = email.header_string('x-mailer')

  # For optimization, this list could be sorted from most popular to least popular email client/service
  rules = [
    [ 'Gmail', lambda { message_id =~ /.+gmail\.com>\z/}, /^.*#{FROM_NAME}\s+<#{FROM_ADDRESS}>\s*wrote:.*$/ ],
    [ 'Yahoo! Mail', lambda { message_id =~ /.+yahoo\.com>\z/}, /^_+\nFrom: #{FROM_NAME} <#{FROM_ADDRESS}>$/ ],
    [ 'Microsoft Live Mail/Hotmail', lambda { email.header_string('return-path') =~ /<.+@(hotmail|live).com>/}, /^Date:.+\nSubject:.+\nFrom: #{FROM_ADDRESS}$/ ],
    [ 'Outlook Express', lambda { x_mailer =~ /Microsoft Outlook Express/ }, /^----- Original Message -----$/ ],
    [ 'Outlook', lambda { x_mailer =~ /Microsoft Office Outlook/ }, /^\s*_+\s*\nFrom: #{FROM_NAME}.*$/ ],

    # TODO: other email clients/services

    # Generic fallback
    [ nil, lambda { true }, /^.*#{FROM_ADDRESS}.*$/ ]
  ]

  # Default to using the whole body as the reply (maybe the user deleted the original message when they replied?)
  notes = email.body
  source = nil

  # Try to detect which email service/client sent this message
  rules.find do |r|
    if r[1].call
      # Try to extract the reply.  If we find it, save it and cancel the search.
      reply_match = email.body.match(r[2])
      if reply_match
        notes = email.body[0, reply_match.begin(0)]
        source = r[0]
        next true
      end
    end
  end

  [notes.strip, source]
end

答案 1 :(得分:0)

我想你会被困在这个上面。我最近在TMail中一直在用电子邮件做一些事情,你通常会发现一个带有HTML部分的电子邮件的结构通常如下:

part 1 - multipart/mixed
  sub part 1 - text/plain
  sub part 2 - text/html
end

我使用Outlook和Gmail玩过的电子邮件客户端都会以这种格式生成回复,他们通常会在回复中引用原始电子邮件内联。起初我认为原始电子邮件的“旧”部分是独立的部分,但实际上并非如此 - 旧的部分只是合并到了回复部分。

您可以在零件中搜索以“从:”开头的行(因为大多数客户通常会在原始电子邮件文本的顶部放置一个标题,详细说明发送者是谁),但可能无法保证。

我真的没有看到任何错误---请回答这一行 - 通常,它不是那种侵入性的,并且可以使事情变得更简单。