Question

一个更简单的问题......

使用下面的代码如何刮取HTML标签，结果只是一个数字？

我正在使用其他网页。

import pickle
import math
import urllib2
from lxml import etree
from bs4 import BeautifulSoup
from urllib import urlopen

favPrevGMInfoUrl = 'http://www.cbssports.com/nfl/gametracker/boxscore/NFL_20140914_NE@MIN'
favPrevGMInfoHtml = urlopen(favPrevGMInfoUrl).read()
favPrevGMInfoSoup = BeautifulSoup(favPrevGMInfoHtml)
favPrevGMInfo = favPrevGMInfoSoup.find_all("td", { "id" : "away-safeties" })

print favPrevGMInfo

Answer 1

此网站未在原始网址的get请求中返回源代码，而是通过ajax json调用 - http://www.nfl.com/feeds-rs/videos/byGameCenter/2014091404.json?gameState=POST&maxResult=0&random=1434035648930。

您需要从此调用中获取数据。请使用“网络”选项卡来分析所有请求。

Answer 2

将您的上一个打印语句更改为 -

print favPrevGMInfo[0].text

或将上面的行更改为 -

favPrevGMInfo = favPrevGMInfoSoup.find("td", { "id" : "away-safeties" }).text

Python美丽的汤刮特定数字

2 个答案: