Python原子钟Webscraping

时间:2017-12-18 02:24:45

标签: python

我试图从网站上获取原子时间 https://www.nrc-cnrc.gc.ca/eng/services/time/web_clock.html使用python。我知道有些方法可以在没有webscraping的python中执行此操作,这只是为了通过webscraping进行一些练习。到目前为止我已经想出了这个:

import requests
from bs4 import BeautifulSoup
page = requests.get("https://www.nrc-cnrc.gc.ca/eng/services/time/web_clock.html")
soup = BeautifulSoup(page.content,'html.parser')
for i in range(len(soup.find_all('p'))):
    print(str(i) + soup.find_all('p')[i].get_text())

这不显示任何有时间的文本,它显示了来自其他段落和一些空白行的一堆文本,但没有时间。我不确定问题是什么,因为我认为时间存储在段落标记中。任何帮助将不胜感激:)

2 个答案:

答案 0 :(得分:0)

这是网址:https://time5.nrc-cnrc.gc.ca/cgi-bin/get_ts2?original=1573441468689 我认为您找到了错误的网址,这是一个javascript请求。

响应数据示例:

1573441559614|1573441559373|1573441559373

答案 1 :(得分:0)

这应该是你的最终代码,如果它很简单,我也建议使用 import re 而不是 bs4

import requests
page = requests.get("https://time5.nrc-cnrc.gc.ca/cgi-bin/get_ts2?original=1573441468689")
print(page.text)