了解如何从HTML文件中提取数据

时间:2015-06-17 16:41:45

标签: python html

我正在尝试访问this page上提供的“收益率曲线数据”。它有一个单选按钮,点击“提交”后会生成一个zip文件,我希望从中获取数据。我希望从“检索所有数据”选项中获取数据。我的代码如下,从语句print result.read()我意识到result实际上是一个HTML文档。我很难理解如何从result中提取数据,因为我没有看到任何数据。我很困惑从哪里开始。

import urllib, urllib2
import csv
from StringIO import StringIO
import pandas as pd
import os
from zipfile import ZipFile

my_url = 'http://www.bankofcanada.ca/rates/interest-rates/bond-yield-curves/'
data = urllib.urlencode({'lastchange': 'all'}) 
request = urllib2.Request(my_url, data)
result = urllib2.urlopen(request)

谢谢

1 个答案:

答案 0 :(得分:0)

您需要为以下端点生成一个帖子请求:

http://www.bankofcanada.ca/stats/results/csv

使用以下表单数据:

lookupPage: lookup_yield_curve.php
startRange: 1986-01-01
searchRange: all

这应该会给你文件。

您可能还需要伪造您的使用者。