一个更简单的问题......
使用下面的代码如何刮取HTML标签,结果只是一个数字?
我正在使用其他网页。
import pickle
import math
import urllib2
from lxml import etree
from bs4 import BeautifulSoup
from urllib import urlopen
favPrevGMInfoUrl = 'http://www.cbssports.com/nfl/gametracker/boxscore/NFL_20140914_NE@MIN'
favPrevGMInfoHtml = urlopen(favPrevGMInfoUrl).read()
favPrevGMInfoSoup = BeautifulSoup(favPrevGMInfoHtml)
favPrevGMInfo = favPrevGMInfoSoup.find_all("td", { "id" : "away-safeties" })
print favPrevGMInfo
答案 0 :(得分:1)
此网站未在原始网址的get请求中返回源代码,而是通过ajax json调用 - http://www.nfl.com/feeds-rs/videos/byGameCenter/2014091404.json?gameState=POST&maxResult=0&random=1434035648930。
您需要从此调用中获取数据。请使用“网络”选项卡来分析所有请求。
答案 1 :(得分:1)
将您的上一个打印语句更改为 -
print favPrevGMInfo[0].text
或将上面的行更改为 -
favPrevGMInfo = favPrevGMInfoSoup.find("td", { "id" : "away-safeties" }).text