MySpider正试图描绘加载更多动作点击,这会导致在网页上动态加载更多项目。这种情况一直持续到没有其他东西可以加载。
yield FormRequest(url,headers=header,formdata={'entity_id': '70431','profile_action': 'review-top','page':str(p), 'limit': '5'},callback=self.parse_review)
header = {#'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:44.0) Gecko/20100101 Firefox/44.0',
'X-Requested-With': 'XMLHttpRequest',
'Host': 'www.zomato.com',
'Accept': '*/*',
'Referer': 'https://www.zomato.com',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'dont_filter':'True' }
url = 'https://www.zomato.com/php/social_load_more.php'
收到的回复是json回应。
jsonresponse = json.load(response)
我确实看到了 -
('data==', {u'status': u'success', u'left_count': 0, u'html': u"<script type='text/javascript'>if (typeof initiateLaziness == 'function') initiateLaziness() </script>", u'page': u'1', u'more': 0})
你看我得到状态,left_count,页面等的回复。 但是我对'html'很感兴趣。不幸的是,它是 in-correct 值,如果通过浏览器完成,我会收到该值(检查网络电话并验证)
预期'html'是----
<div><a> very long html stuff...............................................<div><script type='text/javascript'>if (typeof initiateLaziness == 'function') initiateLaziness() </script>
我只收到后来的部分
<script>...................................</script>.
缺少真正的HTML内容。
需要注意的是,我确实收到了回复,但仅仅是“html”的不完整版本。对休息有好处。我相信它可能与动态生成的html有关。但我对它有任何线索。
scrapy中间件没有添加内容长度。并且不允许我添加一个。将标题添加到标题时,响应失败,为400。
请求标头实际发送到服务器:
{'Accept-Language': ['en'], 'Accept-Encoding': ['gzip, deflate,br'], 'Dont_Filter': ['True'], 'Connection': ['keep-alive'], 'Accept': ['*/*'], 'User-Agent': ['Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:44.0) Gecko/20100101 Firefox/44.0'], 'Host': ['www.zomato.com'], 'X-Requested-With': ['XMLHttpRequest'], 'Cookie': ['zl=en; fbtrack=9be27330646d24088c56c2531ea2fbf5; fbcity=7; PHPSESSID=2338004ce3fd540477242c3eaee685168163bd05'], 'Referer': ['https://www.zomato.com'], 'Content-Type': ['application/x-www-form-urlencoded; charset=UTF-8']})
如果我在这里遗失任何东西,请帮助我吗? 或者某种程度上我可以发送内容长度/发送中间件给我发送它? 非常感谢。
答案 0 :(得分:1)
由于未使用Cookie,您不会收到回复的html内容。在您提到的实际请求标头中,有一个cookie属性。但是在您通过代码发送的ajax请求中,没有cookie字段。
首先在zomato餐厅页面的请求响应中设置一个cookie,其中包含url:https://www.zomato.com/city/restaurant/reviews。现在,当点击加载更多按钮时,将发送一个请求,其中包含服务器在之前对网址“https://www.zomato.com/php/social_load_more.php”的响应中设置的Cookie字段。因此,每次发出ajax请求时,应在请求标头中发送上一个响应中设置的cookie,并在当前请求的响应中设置新的cookie。
因此,为了管理这些cookie,我使用了请求包的会话对象。脚本也可以在不使用scrapy的情况下编写。当您在scrapy中编写代码时,请查看是否有任何会话对象可用于管理scrapy的cookie。
我的代码:
import requests
url : 'https://www.zomato.com/city/restaurant/reviews'
s = requests.Session()
resp = s.get(url, headers=header)
以上代码是将请求发送到餐厅评论的网址。这很重要,因为第一个cookie是在对此请求的响应中设置的。
params={
'entity_id':res_id,
'profile_action':'reviews-dd',
'page':'1',
'limit':'5'
}
header = {"origin":"https://www.zomato.com","Referer":"https://www.zomato.com/","user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0", "x-requested-with":"XMLHttpRequest", 'Accept-Encoding': 'gzip, deflate, br'}
loadreviews_text = s.post("https://www.zomato.com/php/social_load_more.php", data=params, headers=header)
loadreviews = loadreviews_text.json()
现在向social_load_more.php发出请求。对象''管理cookie。变量loadreviews现在将具有json格式的html数据。