用于抓取不同页面并获取数据的脚本

时间:2013-05-01 19:41:12

标签: python-2.7 web-crawler data-acquisition

我打算对bmtc总线连接网络进行网络分析......所以我需要获取有关总线路由的数据。据我所知,最好的网站是 http://www.narasimhadatta.info/bmtc_query.html 在“按路线搜索”选项下,给出了整个路线列表,可以选择其中任何一个,点击“提交”即可显示详细路线。以前,当我在线获取数据时,我常常使用每个项目(在这种情况下为路径编号)导致不同的URL这一事实,我曾经使用Python从源页面获取数据。但是不管总线路由如何,最终页面总是有URL http://www.narasimhadatta.info/cgi-bin/find.cgi 它的源页面不包含路径详细信息!

我对Python和Matlab很满意。我无法弄清楚从该网站获取数据的任何方法。如果你能看到一些东西,从技术上讲,应该能够下载数据(至少我相信的那样)。那么请你帮我一个代码,自动搜索每个公交路线号并下载路线详情?

1 个答案:

答案 0 :(得分:1)

我看了你提到的网址。如果您有路由号码列表,则可以使用以下URL结构来提取数据。

http://www.narasimhadatta.info/cgi-bin/find.cgi?route=270S

http://www.narasimhadatta.info/cgi-bin/find.cgi?route= [您列出的路线编号]