使用python scrape dechtech网站

时间:2012-10-15 12:53:49

标签: javascript python screen-scraping

我正在寻找一种方法来从这个网站获取数据:http://www.dectech.org/football/index.php最好使用Python。我似乎遇到的困难是数据没有硬编码到网站的HTML中,并且似乎包含在称为mochi-kit(http://mochi.github.com/mochikit/)的内容中。

我做过一些研究,似乎像BeautifulSoup这样的东西可能对我有用,但我想我可能没有正确使用它。我也尝试使用urllib来解析网站,没有任何乐趣。

我的最终目标是建立一个监控dectech网站的程序,当发布新的预测时,使用Betfair API自动选择价值下注。

1 个答案:

答案 0 :(得分:2)

看起来这个数据是通过javascript从这个网址加载的

  

http://www.dectech.org/cgi-bin/new_site/GetUpcomingGames.pl?divID=0

返回

{
   "games" : [
      {
         "apct" : 0.377838,
         "dpct" : 0.263445,
         "expGoalDiff" : -0.04086,
         "awayID" : "6",
         "homeID" : "17",
         "date" : "20/10/2012",
         "away" : "Chelsea",
         "home" : "Tottenham",
         "hpct" : 0.358717
      },
      {
         "apct" : 0.237829,
         "dpct" : 0.250146,
         "expGoalDiff" : 0.594234,
         "awayID" : "1",
         "homeID" : "8",
         "date" : "20/10/2012",
         "away" : "Aston Villa",
         "home" : "Fulham",
         "hpct" : 0.512025
      }, /* shortened for brevity */

所以你非常幸运,你不需要抓取数据(这很棘手),你只需要检索它并解析它就像他们使用mochi一样。

Python的simplejson模块可以解析它......