Python:无法让urllib2正确读取网页

时间:2013-12-05 15:40:04

标签: python-2.7 web-scraping urllib2 urllib bloomberg

我正在尝试获取

的完整网页

'http://www.bloomberg.com/markets/economic-calendar/'

但由于某种原因,我找不到将链接作为字符串返回的函数。 我想将Bloomberg页面上的所有公告转换为CSV文件,但我不确定如何。 CSV文件包含以下内容:

星期一12.2 盖洛普美国消费者支出措施 [报告] [Bullet8:30 AM ET

本伯南克说 美国东部时间上午8:30

PMI制造业指数 [报道] [djStar]美国东部时间上午8:58

ISM Mfg指数 [报道] [明星]东部时间上午10点

建筑支出 [报告] [djStar]美国东部时间上午10:00

建筑支出 [报告] [djStar]美国东部时间上午10:00

4周的账单公告 [报告] [Bullet 11:00 AM ET

(这只是网站的复制和粘贴)。

使用的最佳方式或最佳库是什么?

1 个答案:

答案 0 :(得分:1)

由于您要求提供有关网络抓取的教程,您基本上应该(按照给定的顺序)

  1. Url检索(即从给定网址的网页阅读)[参考urllib图书馆]
  2. Html解析(理解html和快速访问所需内容)[参考Beautifulsoup v4]
  3. 处理获得的数据&在您的情况下,转储到csv文件。 [参考csv图书馆]