无需API即可从网站收集数据

时间:2012-07-01 07:46:54

标签: web-services api web-applications web-scraping

我希望建立一个网络应用程序,以改善在印度预订火车票的用户体验。 API由于收取高额费用而无法获得。我见过许多通过他们的应用程序提供火车等细节的应用程序。


我的问题是他们如何从网站上抓取数据。一般情况下,我如何合法地向用户显示数据(我不希望付款以及在没有API的情况下无法使用API​​)人们如何抓取此类数据?任何工具/方法?


如果问题天真,请耐心等待。我对这些东西很陌生。

2 个答案:

答案 0 :(得分:3)

他们可以使用几种编程语言中的任何一种来获取列车时刻表信息,尽管它很可能是使用普通的PHP和任何好的网络服务器主机完成的。例如,所有印度列车时刻表都可以在indianrail.gov网站上找到。

将特别构建的URL发送给..

http://www.indianrail.gov.in/cgi_bin/inet_trnnum_cgi.cgi?lccp_trnname=1123

使用发送表单数据的POST方法应该为您提供列车编号 1123 的所有详细信息。之后,只需简单的任务就是整理数据库中的存储结果。

更新:装甲网站,它检查用户代理和入站请求的引用。

Ammendum:indianrail.gov网站正在改为http://www.trainenquiry.com/ - >将不得不再看看

答案 1 :(得分:1)

MaxSteel和Mansoorkhan,

请查看http://pnrBuddy.com的API。除票务预订外,他们完成了所有必要的工作。

这些是超快速的API,很快就会出现带有电台的纬度/经度数据。