我在Windows Vista 64位上使用Python.org版本2.7 64位。我有一些代码是我在这里问到的问题的答案的开发:
Cannot locate displayed data in source code when Scraping with Scrapy
我对这个答案的开发是迭代一系列范围内的一系列日期,并获取我追踪的每个日期的数据(想法是如果没有该日期的数据,我将返回空白) 。
代码是这样的:
from datetime import date, timedelta as td
from ast import literal_eval
from datetime import datetime
import requests
d1 = date(2013,11,01)
d2 = date(2014,5,31)
delta = d2 - d1
for i in range(delta.days + 1):
time1 = str(d1 + td(days=i))
time2 = time1.split("-", 1)[0]
time3 = time1.split("-", -1)[1]
time4 = time1.rsplit("-", 1)[-1]
time2 = int(time2)
time3 = int(time3)
time4 = int(time4)
date = datetime(year=time2, month=time3, day=time4)
print date
url = 'http://www.whoscored.com/tournamentsfeed/8273/Fixtures/'
params = {'d': date.strftime('%Y%m'), 'isAggregate': 'false'}
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36'}
response = requests.get(url, params=params, headers=headers)
fixtures = literal_eval(response.content)
print fixtures
这段代码不是给我任何一天的固定装置,而是给了我那个月的整个月份的装置。
然后代码在迭代过程中继续落在随机点上并引发以下错误:
Traceback (most recent call last):
File "C:\Python27\newtets\newtets\spiders\test3.py", line 32, in <module>
fixtures = literal_eval(response.content)
File "C:\Python27\lib\ast.py", line 49, in literal_eval
node_or_string = parse(node_or_string, mode='eval')
File "C:\Python27\lib\ast.py", line 37, in parse
return compile(expr, filename, mode, PyCF_ONLY_AST)
File "<unknown>", line 1
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
^
SyntaxError: invalid syntax
我想知道的是:
1)如果没有固定装置,为什么这个代码结构不会从那天返回/或固定装置/ null?
2)这个错误的原因是什么?为什么在执行过程中它会在随机点继续发生?
由于
答案 0 :(得分:1)
您可以在使用<!DOCTYPE
literal_eval
fixtures = (response.content)
if not "<!DOCTYPE " in fixtures:
fixtures = literal_eval(response.content)
使用try/except
捕获特定异常可能更好。
您的代码成功完成了导致错误的唯一行是包含<!DOCTYPE
的行,我认为这些行与您尝试执行的操作无关,打印时它是html。
以下内容应该有效:
try:
fixtures = literal_eval(response.content)
except SyntaxError:
pass
print fixtures
输出中有一个有趣的部分:
<h2>403 - Forbidden: Access is denied.</h2>
<h3>You do not have permission to view this directory or page using the credentials that you supplied.
必须有一些你正在努力的部分要求某种自动化。
您可能还需要过一天%d
:
params = {'d': date.strftime('%Y%m%d'), 'isAggregate': 'false'}
如果您在更改日期仅为年份和月份之前打印参数,我想您希望这些日子能够在一个月内获得不同的装置。