使用Python进行航空公司价格刮擦

时间:2014-05-12 11:36:41

标签: python web-scraping

我一直在尝试创建python代码,以便将JFK的航空公司价格降到LAX。 我要抓的价格的网址在这里:https://www.google.com/flights/#search;f=JFK;t=LAX;d=2014-05-28;r=2014-06-01;tt=o

理想情况下,我可以获得航空公司的时间列表,出发时间和价格。

我知道     'div class =“GHOFUQ5BGJC>” 210美元     对应价格和     'div class =“GHOFUQ5BMFC”> Sun Country'     对应航空公司。

到目前为止,这就是我所拥有的

import re
import urllib

html = "https://www.google.com/flights/#search;f=JFK;t=LAX;d=2014-05-28;r=2014-06-01;tt=o"
htmlfile = urllib.urlopen(html)
htmltext = htmlfile.read()

re1 = '<div class="GHOFUQ5BGJC">(.+?)</div>'
pattern1 = re.compile(re1)
price = re.findall(pattern1, htmltext)
re2 ='<div class="GHOFUQ5BMFC">(.+?)</div>'
pattern2 = re.compile(re2)
airline = re.findall(pattern2, htmltext)

print price
print airline

有没有办法通过漂亮的汤来获取价格和航空公司标签?或者我是否正确使用正则表达式? 运行时,代码只给我两个空列表。

我做错了什么? 感谢

0 个答案:

没有答案