使用日期范围迭代一系列带日期戳的XHR请求

时间:2014-08-11 21:52:10

标签: python xmlhttprequest scrapy

我在Windows Vista 64位上使用Python.org版本2.7 64位。我有一些代码是我在这里问到的问题的答案的开发:

Cannot locate displayed data in source code when Scraping with Scrapy

我对这个答案的开发是迭代一系列范围内的一系列日期,并获取我追踪的每个日期的数据(想法是如果没有该日期的数据,我将返回空白) 。

代码是这样的:

from datetime import date, timedelta as td
from ast import literal_eval
from datetime import datetime
import requests

d1 = date(2013,11,01)
d2 = date(2014,5,31)

delta = d2 - d1


for i in range(delta.days + 1):
    time1 =  str(d1 + td(days=i))
    time2 = time1.split("-", 1)[0]
    time3 = time1.split("-", -1)[1]
    time4 = time1.rsplit("-", 1)[-1]

    time2 = int(time2)
    time3 = int(time3)
    time4 = int(time4)

    date = datetime(year=time2, month=time3, day=time4)
    print date

    url = 'http://www.whoscored.com/tournamentsfeed/8273/Fixtures/'

    params = {'d': date.strftime('%Y%m'), 'isAggregate': 'false'}
    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36'}

    response = requests.get(url, params=params, headers=headers)

    fixtures = literal_eval(response.content)
    print fixtures

这段代码不是给我任何一天的固定装置,而是给了我那个月的整个月份的装置。

然后代码在迭代过程中继续落在随机点上并引发以下错误:

Traceback (most recent call last):
  File "C:\Python27\newtets\newtets\spiders\test3.py", line 32, in <module>
    fixtures = literal_eval(response.content)
  File "C:\Python27\lib\ast.py", line 49, in literal_eval
    node_or_string = parse(node_or_string, mode='eval')
  File "C:\Python27\lib\ast.py", line 37, in parse
    return compile(expr, filename, mode, PyCF_ONLY_AST)
  File "<unknown>", line 1
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
    ^
SyntaxError: invalid syntax

我想知道的是:

1)如果没有固定装置,为什么这个代码结构不会从那天返回/或固定装置/ null?

2)这个错误的原因是什么?为什么在执行过程中它会在随机点继续发生?

由于

1 个答案:

答案 0 :(得分:1)

您可以在使用<!DOCTYPE

之前检查行中是否有literal_eval
fixtures = (response.content)
if not "<!DOCTYPE " in fixtures:
    fixtures = literal_eval(response.content)

使用try/except捕获特定异常可能更好。

您的代码成功完成了导致错误的唯一行是包含<!DOCTYPE的行,我认为这些行与您尝试执行的操作无关,打印时它是html。

以下内容应该有效:

try:
    fixtures = literal_eval(response.content)
except SyntaxError:
    pass
print fixtures

输出中有一个有趣的部分:

<h2>403 - Forbidden: Access is denied.</h2>
  <h3>You do not have permission to view this directory or page using the credentials that you supplied.

必须有一些你正在努力的部分要求某种自动化。

您可能还需要过一天%d

params = {'d': date.strftime('%Y%m%d'), 'isAggregate': 'false'}

如果您在更改日期仅为年份和月份之前打印参数,我想您希望这些日子能够在一个月内获得不同的装置。