如何从Skyscanner获取数据?

时间:2013-11-18 15:15:32

标签: python python-3.x

我是Python的新手,并且已经请求从www.skyscanner.net获取动态数据。

有人可以指导我这样做吗?

import requests
import lxml.html as lh

url = 'http://www.skyscanner.net/transport/flights/sin/lhr/131231/140220/'
response = requests.post(url)

tree = lh.document_fromstring(response.content)
print(tree);

我所做的只是在URL中找到模式并尝试从那里抓取。但是,没有成功提取数据。我了解到Python是执行此类任务的最佳语言,但是库看起来太大了,我不知道从哪里开始。

1 个答案:

答案 0 :(得分:0)

我的名字是Piotr - 我在Skyscanner工作 - 在数据采集团队 - 我认为你申请加入:-)因为这是你的任务的一部分,我不想给你一个直接的答案,但是你可能会考虑:

  • 了解我们网站的工作原理 - 如何构建请求以及您可以在http响应中找到哪些数据。
  • 您可以使用一些可以帮助您解析xml / json响应的库

我认为这就是我所能说的:-)

干杯, 彼得