用python抓取一些x数据

时间:2009-11-01 07:36:26

标签: python xml urllib2 sgml ofx

我试图使用http://www.jongsma.org/gc/scripts/ofx-ba.py从wachovia获取我的银行帐户信息。没有运气,我决定尝试使用this example

手动构建一些请求数据

所以,我有这个文件,我想用作请求数据。我们称之为req.ofxsgml:

FXHEADER:100
DATA:OFXSGML
VERSION:102
SECURITY:NONE
ENCODING:USASCII
CHARSET:1252
COMPRESSION:NONE
OLDFILEUID:NONE
NEWFILEUID:NONE

<OFX>
  <SIGNONMSGSRQV1>
    <SONRQ>
      <DTCLIENT>20071015021529.000[-8:PST]
      <USERID>TheNameIuseForOnlineBanking
      <USERPASS>MySecretPassword
      <LANGUAGE>ENG
      <FI>
        <ORG>Wachovia
        <FID>4309
      </FI>
      <APPID>Money
      <APPVER>1700
    </SONRQ>
  </SIGNONMSGSRQV1>
  <BANKMSGSRQV1>
    <STMTTRNRQ>
      <TRNUID>438BD6F4-2106-4C88-8DE5-7625915A2FC0
      <STMTRQ>
        <BANKACCTFROM>
          <BANKID>061000227
          <ACCTID>101555555555
          <ACCTTYPE>CHECKING
        </BANKACCTFROM>
        <INCTRAN>
          <INCLUDE>Y
        </INCTRAN>
      </STMTRQ>
    </STMTTRNRQ>
  </BANKMSGSRQV1>
</OFX>

然后,在python中,我尝试:

>>> import urllib2
>>> query = open('req.ofxsgml').read()
>>> request = urllib2.Request('https://pfmpw.wachovia.com/cgi-forte/fortecgi?servicename=ofx&amp;pagename=PFM',
                              query,
                              { "Content-type": "application/x-ofx",
                                "Accept": "*/*, application/x-ofx"
                              })
>>> f = urllib2.urlopen(request)

这个命令给了我500和this traceback。我想知道我的要求有什么问题。

访问没有数据且不关心标题的网址

>>> f = urllib2.urlopen('https://pfmpw.wachovia.com/cgi-forte/fortecgi?servicename=ofx&amp;pagename=PFM')

与直接访问that url产生相同的效果,

HTTPError: HTTP Error 403: <BODY><H1>Request not allowed</H1></BODY>.

这很明显但只是观察。关于这个问题的一切似乎都已经过时了。希望编写一个简单的python ofx模块来开源。也许已经开发出了一些我无法找到的东西?

编辑 - 如果我对上述信息进行平面映射:

d = {'ACCTID': '10555555',
 'ACCTTYPE': 'CHECKING',
 'APPID': 'Money',
 'APPVER': '1700',
 'BANKID': '061000227',
 'DTCLIENT': '20071015021529.000[-8:PST]',
 'FID': '4309',
 'INCLUDE': 'Y',
 'LANGUAGE': 'ENG',
 'ORG': 'Wachovia',
 'TRNUID': 'I18BD6F4-2006-4C88-8DE5-7625915A2FC0',
 'USERID': 'm48m40',
 'USERPASS': '12397'}

然后对其进行urlencode并将其作为数据发出请求

query=urllib.urlencode(d)
request = urllib2.Request('https://pfmpw.wachovia.com/cgi-forte/fortecgi?servicename=ofx&amp;pagename=PFM',
                              query,
                              { "Content-type": "application/x-ofx",
                                "Accept": "*/*, application/x-ofx"
                              })

f = urllib2.urlopen(request)
HTTP Error 403: <BODY><H1>Request not allowed</H1></BODY>

2 个答案:

答案 0 :(得分:2)

问题在于您之前将文件中的数据作为数据参数直接传递给Request。您正在读取的文件包含标题和您应发送的数据。您需要像现在一样单独提供标题和数据。

HTTP错误403表示请求正确但服务器拒绝响应。您是否已经注册并安排了使用您尝试访问的Web服务的权限?如果是,那么在发出请求之前需要进行一些身份验证吗?

答案 1 :(得分:0)

可以进行身份​​验证吗? (或缺乏?)