用于具有ajax内容和https的网站的PHP爬虫

时间:2011-08-02 10:44:08

标签: php ajax curl web-crawler

我试图抓住基于ajax和https的网站内容,但没有运气。

这可能。

我正在尝试抓取的网站是:

https://www.bet3000.com/en/html/home.html#!https://www.bet3000.com/html/en/eventssportsbook.html?category_id=2117

由于

1 个答案:

答案 0 :(得分:2)

如果您查看此页面正在执行的HTTP请求(例如,使用Firebug for Firefox),您会发现它会发出多个Ajax请求。

不是尝试执行Javascript代码,而是一种可能的解决方案,可以让您请求其中一个URL,并获取数据 - 您也不必以这种方式解析HTML。


在这种特定情况下,其中一个请求发送到以下URL:

https://www.bet3000.com/ajax/en/sportsbook.json.html?category_id=2117&offset=&live=&sportsbook_id=0

此网址似乎返回了一些JSON数据,您应该对此感兴趣;-)
(在JSON之前和之后有几个字符需要删除,但除此之外,我没有看到任何看起来不太好的字符。)