从html框架中获取数据

时间:2014-01-23 14:01:31

标签: python beautifulsoup screen-scraping html-frames

我尝试在this html帧中获取表格信息。我的意思是表格有列:

Year,Month,Oil Production m3,Gas Production Ksm3,...

使用beautifulSoup,这是我迄今为止尝试的内容:

from bs4 import BeautifulSoup
from urllib import urlopen, urlretrieve, quote

url_base = 'https://www.og.decc.gov.uk/information/wells/pprs/Well_production_onshore_oil_fields/onshore_oil_fields_by_well/onshore_oil_fields_by_wel.html'
u = urlopen(url_base)
html = u.read().decode('utf-8')
u.close()
soup = BeautifulSoup(html)

但是这只检索主页面信息,而不是页面框架。 当我通过框架链接更改URL基础时,它告诉我所请求的页面已过时。

1 个答案:

答案 0 :(得分:1)

我认为你正在复制错误的网址。当我使用以下内容时,它可以工作。

url_base = 'https://www.og.decc.gov.uk/information/wells/pprs/Well_production_onshore_oil_fields/onshore_oil_fields_by_well/0.htm'

注意:它是.../onshore_oil_fields_by_well/0.htm

而不是.../onshore_oil_fields_by_well/0.html