抓取CSV的网站数据

时间:2014-11-05 14:55:57

标签: javascript python csv web-scraping scrape

对这种类型的编程工作缺乏经验,对嵌入式系统更加熟悉。我的网页编程很少xp。

我想要实现的目标:

一个网站(danglefactory.com)有一个很棒的统计表,我想将其下载到CSV进行处理。在网站上,有一个按钮,可以调用内部脚本来制作cvs并准备下载。

Referer http://www.danglefactory.com/projections/skaters/daily

脚本http://www.danglefactory.com/scripts/copy_csv_xls.swf

我更喜欢python解决方案,它可以将此csv提取到临时或本地存储进行处理。

先谢谢。

1 个答案:

答案 0 :(得分:1)

你可以采取的第一种方法是相当低级别的。

在幕后,您可以使用JSON API调用进行模拟,例如requests

以下是您如何获得每日预测:

import requests

url = 'http://www.danglefactory.com/api/DailySkaterProjections?_=1415200157912'
response = requests.get(url)

data = response.json()
print data

打印:

[{u'A': 0.61,
  u'Blocks': 0.37,
  u'Corsi': 0.53,
  u'FOL': 9.07,
  u'FOW': 8.95,
  u'FOWinPerc': 49.6,
  u'G': 0.39,
  u'Giveaways': 0.89,
  u'Hits': 0.54,
  u'Name': u'John Tavares',
  u'Opponent': u'ANA',
  u'P': 0.99,
  u'PIM': 0.51,
  u'PPA': 0.24,
  u'PPG': 0.11,
  u'PlayerID': 411,
  u'PlusMinus': 0.05,
  u'PrimaryPosition': u'C',
  u'SHA': 0.0,
  u'SHG': 0.0,
  u'ShPerc': 12.6,
  u'Shots': 3.1,
  u'TOI': 20.39,
  u'Takeaways': 0.82,
  u'Team': u'NYI'},
 {u'A': 0.7,
  u'Blocks': 1.0,
  u'Corsi': 0.47,
  u'FOL': 8.69,
  u'FOW': 8.43,
  u'FOWinPerc': 49.3,
  u'G': 0.28,
  u'Giveaways': 0.84,
  u'Hits': 1.49,
  u'Name': u'Ryan Getzlaf',
  u'Opponent': u'NYI',
  u'P': 0.97,
  u'PIM': 0.68,
  u'PPA': 0.22,
  u'PPG': 0.07,
  u'PlayerID': 161,
  u'PlusMinus': 0.06,
  u'PrimaryPosition': u'C',
  u'SHA': 0.04,
  u'SHG': 0.02,
  u'ShPerc': 11.9,
  u'Shots': 2.3,
  u'TOI': 20.52,
  u'Takeaways': 0.61,
  u'Team': u'ANA'},

  ...

}]

然后,您可以使用csv模块将结果转换为csv。


另一种解决方案可能是使用selenium浏览器自动化工具,但问题是CSV按钮和表位于selenium cannot interact with的Flash对象中。


您可以使用sikuli之类的图像识别和屏幕自动化工具查找CSV按钮并单击它。如果您仍然希望留在"高级"。

希望有所帮助。