我正在尝试使用python3和BeautifulSoup从http://flight.qunar.com/抓取机票信息(包括飞机信息和价格信息等)。下面是我正在使用的python代码。在这段代码中,我试图在2012-07-25从北京(北京)到丽江(丽江)的航班信息。
import urllib.parse
import urllib.request
from bs4 import BeautifulSoup
url = 'http://flight.qunar.com/site/oneway_list.htm'
values = {'searchDepartureAirport':'北京', 'searchArrivalAirport':'丽江', 'searchDepartureTime':'2012-07-25'}
encoded_param = urllib.parse.urlencode(values)
full_url = url + '?' + encoded_param
response = urllib.request.urlopen(full_url)
soup = BeautifulSoup(response)
print(soup.prettify())
我得到的是提交请求后的初始页面,页面仍在加载搜索结果。我想要的是完成加载搜索结果后的最后一页。那么如何使用python实现这个目标呢?
答案 0 :(得分:7)
问题实际上非常困难 - 该网站使用动态生成的内容通过JavaScript加载,但是urllib
基本上只能获得在禁用JavaScript时在浏览器中获得的内容。那么,我们能做些什么呢?
使用
完全呈现网页(它们基本上是无头的自动化浏览器,用于测试和抓取)
或者,如果您需要(半)纯Python解决方案,请使用PyQt4.QtWebKit
呈现页面。它的工作方式大致如下:
import sys
import signal
from optparse import OptionParser
from PyQt4.QtCore import *
from PyQt4.QtGui import *
from PyQt4.QtWebKit import QWebPage
url = "http://www.stackoverflow.com"
def page_to_file(page):
with open("output", 'w') as f:
f.write(page.mainFrame().toHtml())
f.close()
app = QApplication()
page = QWebPage()
signal.signal( signal.SIGINT, signal.SIG_DFL )
page.connect(page, SIGNAL( 'loadFinished(bool)' ), page_to_file)
page.mainFrame().load(QUrl(url))
sys.exit( app.exec_() )
编辑:有一个很好的解释,这是如何工作的here。
Ps:您可能希望查看requests而不是使用urllib
:)