我正在尝试按照网站进行scrapy,其中分页是通过AJAX请求。 http://studiegids.uva.nl/xmlpages/page/2014-2015/zoek-vak
我发送FormRequest来访问不同的页面,但是我收到了以下错误。 正在重试http://studiegids.uva.nl/xmlpages/plspub/uva_search.courses_pls> (失败1次):400错误请求
无法理解什么是错的?以下是代码。
class Spider(BaseSpider):
name = "zoek"
allowed_domains = ["studiegids.uva.nl"]
start_urls = ["http://studiegids.uva.nl/xmlpages/page/2014-2015/zoek-vak"]
def parse(self, response):
base_url = "http://studiegids.uva.nl/xmlpages/page/2014-2015/zoek-vak"
for i in range(1, 10):
data = {'p_fetch_size': unicode(20),
'p_page:': unicode(i),
'p_searchpagetype': u'courses',
'p_site_lang': u'nl',
'p_strip': u'/2014-2015',
'p_ctxparam': u'/xmlpages/page/2014-2015/',
'p_rsrcpath':u'/xmlpages/resources/TXP/studiegidswebsite/'}
yield FormRequest.from_response(response,
formdata=data,
callback=self.fetch_details,
dont_click=True)
# yield FormRequest(base_url,
# formdata=data,
# callback=self.fetch_details)
def fetch_details(self, response):
# print response.body
hxs = HtmlXPathSelector(response)
item = ZoekItem()
Studiegidsnummer = hxs.select("//div[@class=item-info']//tr[1]/td[2]/p/text()")
Studielast = hxs.select("//div[@class=item-info']//tr[2]/td[2]/p/text()")
Voertaal = hxs.select("//div[@class=item-info']//tr[3]/td[2]/p/text()")
Ingangseis = hxs.select("//div[@class=item-info']//tr[4]/td[2]/p/text()")
Studiejaar = hxs.select("//div[@class=item-info']//tr[5]/td[2]/p/text()")
Onderwijsinstituut = hxs.select("//div[@class=item-info']//tr[6]/td[2]/p/text()")
for i in range(20):
item['Studiegidsnummer'] = Studiegidsnummer
item['Studielast'] = Studielast
item['Voertaal'] = Voertaal
yield item
答案 0 :(得分:0)
尝试使用firebug检查标题。
答案 1 :(得分:0)
400 Bad Request
通常意味着您的请求与预期的请求格式不完全匹配。常见原因包括Cookie或标题丢失或无效。
在Web浏览器上,打开“开发人员工具”的“网络”标签,然后触发请求。当您在“网络”选项卡中看到请求时,请进行全面检查(参数,标题等)。尝试在您的代码中匹配这样的请求。