用Python刮痧。无法获得有用数据

时间:2017-01-30 08:00:14

标签: python web-scraping beautifulsoup

我正在尝试抓网站,但我遇到了一个问题。当我试图抓取数据时,看起来html与我在google inspect上看到的以及我从python获得的内容不同。我用http://edition.cnn.com/election/results/states/arizona/house/01得到了这个,我试图刮掉选举结果。我用这个脚本来检查网页的HTML部分,我注意到它们不同。没有我需要的类,比如section-wrapper。

POM relocation to an other version number is not fully supported in Gradle : xml-apis:xml-apis:2.0.2 relocated to xml-apis:x
ml-apis:1.0.b2.
Please update your dependency to directly use the correct version 'xml-apis:xml-apis:1.0.b2'.
Resolution will only pick dependencies of the relocated element. Artifacts and other metadata will be ignored.

任何人都知道这是什么问题?

2 个答案:

答案 0 :(得分:2)

http://data.cnn.com/ELECTION/2016/AZ/county/H_d1_county.json

此网站使用JavaScript获取数据,您可以查看上面的网址。

你可以在chrome dev-tools中找到这个url,有很多链接,请查看 enter image description here

Chrome>> F12>>网络标签>> F5(刷新页面)>>双击.josn网址>>打开新标签

enter image description here

答案 1 :(得分:0)

import requests
from bs4 import BeautifulSoup       
page=requests.get('http://edition.cnn.com/election/results/states/arizona/house/01')
soup = BeautifulSoup(page.content)
#you can try all sorts of tags here I used class: "ad" and class:"ec-placeholder"
 g_data = soup.find_all("div", {"class":"ec-placeholder"})
 h_data = soup.find_all("div"),{"class":"ad"}
 for item in g_data:print item
#print '\n'
#for item in h_data:print item

enter image description here