Question

我试图从网站上获取原子时间 https://www.nrc-cnrc.gc.ca/eng/services/time/web_clock.html使用python。我知道有些方法可以在没有webscraping的python中执行此操作，这只是为了通过webscraping进行一些练习。到目前为止我已经想出了这个：

import requests
from bs4 import BeautifulSoup
page = requests.get("https://www.nrc-cnrc.gc.ca/eng/services/time/web_clock.html")
soup = BeautifulSoup(page.content,'html.parser')
for i in range(len(soup.find_all('p'))):
    print(str(i) + soup.find_all('p')[i].get_text())

这不显示任何有时间的文本，它显示了来自其他段落和一些空白行的一堆文本，但没有时间。我不确定问题是什么，因为我认为时间存储在段落标记中。任何帮助将不胜感激：）

Answer 1

这是网址：https://time5.nrc-cnrc.gc.ca/cgi-bin/get_ts2?original=1573441468689 我认为您找到了错误的网址，这是一个javascript请求。

响应数据示例：

1573441559614|1573441559373|1573441559373

Answer 2

这应该是你的最终代码，如果它很简单，我也建议使用 import re 而不是 bs4

import requests
page = requests.get("https://time5.nrc-cnrc.gc.ca/cgi-bin/get_ts2?original=1573441468689")
print(page.text)

Python原子钟Webscraping

2 个答案: