使用Beautiful Soup和urllib进行网页抓取时出现问题

时间:2020-04-15 02:00:43

标签: python html web-scraping beautifulsoup urllib

地狱!

我正在英超联赛网站上进行抓取操作,遇到了以下问题。当我运行此命令时:

my_url = 'https://www.premierleague.com/match/{}'.format(i)
client = urlopen(my_url)
page_html = client.read()

page_html的这一特定部分的返回方式如下:

<div class="matchDate renderMatchDateContainer" data-kickoff="1583784000000"></div>

应该是这样的,如我在浏览器中看到的:

<div class="matchDate renderMatchDateContainer" data-kickoff="1583784000000">Mon 9 Mar 2020</div>

You can also see it here

因此,我无法取消日期“ 2020年3月9日星期一”。

有人可以帮忙吗?谢谢!

1 个答案:

答案 0 :(得分:0)

1583685000中的data-kickoff=1583685000000代表2020/03/09,您正在使用JavaScript进行数学运算吗? 您为什么不尝试转换此数据?

num = 1583685000000
s = str(num)
date = int(s[0:-3])
d = datetime.date.fromtimestamp(date)
d.strftime('%d/%m/%y')

'09 / 03/20'