Question

我正在寻找一种方法来从这个网站获取数据：http://www.dectech.org/football/index.php最好使用Python。我似乎遇到的困难是数据没有硬编码到网站的HTML中，并且似乎包含在称为mochi-kit（http://mochi.github.com/mochikit/）的内容中。

我做过一些研究，似乎像BeautifulSoup这样的东西可能对我有用，但我想我可能没有正确使用它。我也尝试使用urllib来解析网站，没有任何乐趣。

我的最终目标是建立一个监控dectech网站的程序，当发布新的预测时，使用Betfair API自动选择价值下注。

Answer 1

看起来这个数据是通过javascript从这个网址加载的

http://www.dectech.org/cgi-bin/new_site/GetUpcomingGames.pl?divID=0

返回

{
   "games" : [
      {
         "apct" : 0.377838,
         "dpct" : 0.263445,
         "expGoalDiff" : -0.04086,
         "awayID" : "6",
         "homeID" : "17",
         "date" : "20/10/2012",
         "away" : "Chelsea",
         "home" : "Tottenham",
         "hpct" : 0.358717
      },
      {
         "apct" : 0.237829,
         "dpct" : 0.250146,
         "expGoalDiff" : 0.594234,
         "awayID" : "1",
         "homeID" : "8",
         "date" : "20/10/2012",
         "away" : "Aston Villa",
         "home" : "Fulham",
         "hpct" : 0.512025
      }, /* shortened for brevity */

所以你非常幸运，你不需要抓取数据（这很棘手），你只需要检索它并解析它就像他们使用mochi一样。

Python的simplejson模块可以解析它......

使用python scrape dechtech网站

1 个答案: