Question

我正在使用beautifulsoup4从Google日历中抓取信息。我生成了一个列表，其中包含日期，后跟要约会的人员的姓名以及会议的召开时间。但是由于某种原因，网络抓取所产生的时间提前了5个小时，我不知道为什么。

以下是我用来生成列表的内容：

import requests
import re
from bs4 import BeautifulSoup

url = "https://calendar.google.com/calendar/htmlembed?src=stationhouston.com_rjtfsabha07jarsumdg7v95b10@group.calendar.google.com&amp&mode=AGENDA"

r = requests.get(url)
soup = BeautifulSoup(r.content)
soup2 = soup.find_all("div", {"class":"date-section"})
for item in soup2:
  print item.text

原始来源以CST显示时间，而网页抓取以UTC显示时间。

在抓取网址之前，必须更改时区吗？还是有办法使用python来解决这个问题？

Answer 1

由于您未使用浏览器，因此Google日历未获取任何时区信息。代替特定时区，它将始终默认为UTC。

所以，有点痛苦，但是您可以这样做：

from datetime import datetime
from dateutil import tz
import requests
import re
from bs4 import BeautifulSoup
from dateutil.parser import parse


def convert_time(x):
    from_zone = tz.gettz('UTC')
    to_zone = tz.gettz('America/New_York')
    utc = x.replace(tzinfo=from_zone)
    central = x.astimezone(to_zone)
    return central 

url = "https://calendar.google.com/calendar/htmlembed?src=stationhouston.com_rjtfsabha07jarsumdg7v95b10@group.calendar.google.com&amp&mode=AGENDA"
r = requests.get(url)
soup = BeautifulSoup(r.content)
soup2 = soup.find_all("div", {"class":"date-section"})
for item in soup2:
    try:
        time_str = re.search('[0-9]:[0-9][0-9]', item.text).group(0)
        print("Old time was: {}".format(time_str))
        time_parsed = parse(time_str)
        res = convert_time(time_parsed)
        new_time = '{}:{}'.format(res.hour, res.minute)
        print("New time is: {}".format(new_time))
    except:
        pass

在这里，我们使用正则表达式从字符串中提取时间。

我们可以使用datetime.parser工具将字符串自动转换为Python datetime对象。

从那里，我们使用上面定义的convert_time()函数将UTC时间戳转换为CST时间戳。

如您所见，输出似乎正确：

Old time was: 2:30
New time is: 22:30
Old time was: 2:30
New time is: 22:30
Old time was: 6:30
New time is: 2:30
Old time was: 3:30
New time is: 23:30
Old time was: 4:30
New time is: 0:30
Old time was: 7:30

BeautifulSoup4 Webscrape的时区与原始来源不同

1 个答案: