从安全网站获取特定数据

时间:2012-06-01 23:42:50

标签: php javascript asp.net curl information-retrieval

我有几个网站,我会定期检查以比较产品价格。 Atm我必须手动登录并在每个网站上搜索产品ID才能获得产品详细信息(价格)。

一段时间后,这很耗时且很无聊。

我正在考虑创建一个Web应用程序,我可以使用我的登录凭据输入所有这些网站。我只需要输入产品ID,我的网络应用程序应该从这些网站获取所有结果并以可比较的方式显示它们。

我不认为这些网站有API,所以我正在寻找最好的方法来解决这个问题。我认为这不是那么简单,因为我需要登录+搜索产品。

关于如何实现这一目标的任何建议?

谢谢!

1 个答案:

答案 0 :(得分:0)

+1给Marc B的评论。如果TOS没有明确禁止它(并且因为这也将被视为爬虫),您应该看到/robots.txt是否禁止您访问产品搜索。如果两者都禁止你,我会建议使用基于浏览器的机器人为你取得结果,只是因为它听起来更实用,你不必处理cookie。

但是,如果您想使用PHP发出页面请求,我会引导您HttpRequest。有一个页面,您可以登录所有站点(使用登录脚本上的POST请求),并保持会话cookie返回方便。当您搜索产品页面时,确定HTML的哪一部分始终返回其后的产品列表(正则表达式可能会有所帮助),并创建一个算法(对于您要抓取的每个网站应该是不同的),它返回有关的信息。产品。然后比较结果!