使用Python从Outlook电子邮件正文中提取数字

时间:2018-05-31 13:38:42

标签: python regex python-3.x pandas outlook-2010

我每小时收到一封电子邮件提醒,告诉我公司在过去一小时内的收入是多少。我想将这些信息提取到一个pandas数据帧中,以便我可以对其进行一些分析。

我的问题是我无法弄清楚如何以可用的格式从电子邮件正文中提取数据。我想我需要使用正则表达式,但我不太熟悉它们。

这是我到目前为止所做的:

import os
import pandas as pd
import datetime as dt
import win32com.client

outlook = win32com.client.Dispatch("Outlook.Application").GetNamespace("MAPI")
inbox = outlook.GetDefaultFolder(6)
messages = inbox.Items

#Empty Lists
email_subject = []
email_date = []
email_content = []

#find emails

for message in messages:
    if message.SenderEmailAddress == 'oracle@xyz.com' and message.Subject.startswith('Demand'):
        email_subject.append(message.Subject)
        email_date.append(message.senton.date()) 
        email_content.append(message.body)

email_content列表如下所示:

'                                                                                                                   \r\nDemand: $41,225 (-47%)\t                                                                            \r\n                                                                                                                       \r\nOrders: 515 (-53%)\t                                                                                \r\nUnits: 849 (-59%)\t                                                                                 \r\n                                                                                                                       \r\nAOV: $80 (12%)                                                                                                          \r\nAUR: $49 (30%)                                                                                                          \r\n                                                                                                                       \r\nOrders with Promo Code: 3%                                                                                              \r\nAverage Discount: 21%                                                                                             '

任何人都可以告诉我如何将其内容拆分为可以在单独的列中获取需求,订单和单位的int值吗?

谢谢!

1 个答案:

答案 0 :(得分:2)

您可以使用string.split()和string.strip()的组合来首先单独提取每一行。

string = email_content
lines = string.split('\r\n')
lines_stripped = []
for line in lines:
    line = line.strip()
    if line != '':
        lines_stripped.append(line)

这会给你一个这样的数组:

['Demand: $41,225 (-47%)', 'Orders: 515 (-53%)', 'Units: 849 (-59%)', 'AOV: $80 (12%)', 'AUR: $49 (30%)', 'Orders with Promo Code: 3%', 'Average Discount: 21%']

您也可以以更紧凑(pythonic)的方式获得相同的结果:

lines_stripped = [line.strip() for line in string.split('\r\n') if line.strip() != '']

一旦有了这个数组,就可以正确猜测提取值时使用正则表达式。我建议您https://regexr.com/试用您的正则表达式。

经过一些快速试验后,r'([\S\s]*):\s*(\S*)\s*\(?(\S*)\)?'应该有效。

以下是从我们上面创建的lines_stripped生成dict的代码:

import re
regex = r'([\S\s]*):\s*(\S*)\s*\(?(\S*)\)?'
matched_dict = {}
for line in lines_stripped:
    match = re.match(regex, line)
    matched_dict[match.groups()[0]] = (match.groups()[1], match.groups()[2])

print(matched_dict)

这会产生以下输出:

{'AOV': ('$80', '12%)'),
 'AUR': ('$49', '30%)'),
 'Average Discount': ('21%', ''),
 'Demand': ('$41,225', '-47%)'),
 'Orders': ('515', '-53%)'),
 'Orders with Promo Code': ('3%', ''),
 'Units': ('849', '-59%)')}

你问过单位,订单和需求,所以这里是提取:

# Remove the dollar sign before converting to float
# Replace , with empty string
demand_string = matched_dict['Demand'][0].strip('$').replace(',', '')
print(int(demand_string))
print(int(matched_dict['Orders'][0]))
print(int(matched_dict['Units'][0]))

正如你所看到的,Demand有点复杂,因为它包含一些额外的字符,python在转换为int时无法解码。

以下是这3张照片的最终输出:

41225
515
849

希望我回答你的问题!如果您对正则表达式有更多疑问,我建议您使用regexr进行体验,它的构建非常好!

编辑:看起来正则表达式中存在一个小问题,导致最后一个')'被包含在最后一个组中。这不会影响你的问题!