从第三方网站获取数据

时间:2014-03-29 22:36:44

标签: javascript ruby-on-rails web-applications

我在一家医疗保健相关的小办公室工作,我们经常需要查阅执照和其他相关的官方医生人数。我们使用免费且可供公众使用的网站。我的任务是找出输入医生姓名的方法,然后在一个条目中返回所有网站的结果,以减少通过每个网站所花费的时间。我熟悉javascript,php和ruby,但绝不是专家。我的问题是,我应该从哪里开始?我不需要任何人为我或任何事情编写代码,但我似乎无法形成谷歌寻找答案的正确问题。我很确定这是可能的,只是不确定从哪里开始发展我的想法。任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:1)

听起来您需要进行一些屏幕抓取,这可能会或可能不会被您使用的网站的条款和条件所允许 - 您应该先检查一下。

如果对自动检索和查询没有任何限制,您将要阅读PHP的cURL模块,并模拟手动查询网站时执行的表单操作。您可以使用浏览器的开发者控制台查看运行查询时调用的脚本和页面 - 它比尝试从页面源处理它更快。

您将从页面中取回HTML,您需要解析这些页面。根据页面上的格式,一些简单的正则表达式可能会起到作用,但您可能需要为您查询的每个站点定制它们。

同样,请仔细检查您正在使用的网站是否允许您运行脚本查询 - 如果您有任何疑问,请发送电子邮件并说明您打算做什么,并询问他们是否& #39;好吧。