我试图删除有ajax调用分页的链接。 我正在尝试抓取http://www.demo.com链接。在.py文件中我提供了限制XPATH和编码的代码:
# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.linkextractors import LinkExtractor
from scrapy.contrib.spiders import sumSpider, Rule
from scrapy.selector import HtmlXPathSelector
from sum.items import sumItem
class Sumspider1(sumSpider):
name = 'sumDetailsUrls'
allowed_domains = ['sum.com']
start_urls = ['http://www.demo.com']
rules = (
Rule(LinkExtractor(restrict_xpaths='.//ul[@id="pager"]/li[8]/a'), callback='parse_start_url', follow=True),
)
#use parse_start_url if your spider wants to crawl from first page , so overriding
def parse_start_url(self, response):
print '********************************************1**********************************************'
#//div[@class="showMoreCars hide"]/a
#.//ul[@id="pager"]/li[8]/a/@href
self.log('Inside - parse_item %s' % response.url)
hxs = HtmlXPathSelector(response)
item = sumItem()
item['page'] = response.url
title = hxs.xpath('.//h1[@class="page-heading"]/text()').extract()
print '********************************************title**********************************************',title
urls = hxs.xpath('.//a[@id="linkToDetails"]/@href').extract()
print '**********************************************2***url*****************************************',urls
finalurls = []
for url in urls:
print '---------url-------',url
finalurls.append(url)
item['urls'] = finalurls
return item
我的items.py文件包含
from scrapy.item import Item, Field
class sumItem(Item):
# define the fields for your item here like:
# name = scrapy.Field()
page = Field()
urls = Field()
在我抓取时,我仍然没有得到确切的输出无法获取所有页面。
答案 0 :(得分:2)
我希望以下代码能够提供帮助。
# -*- coding: utf-8 -*-
import scrapy
import re
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from scrapy.spider import BaseSpider
from demo.items import DemoItem
from selenium import webdriver
def removeUnicodes(strData):
if(strData):
strData = strData.encode('utf-8').strip()
strData = re.sub(r'[\n\r\t]',r' ',strData.strip())
return strData
class demoSpider(scrapy.Spider):
name = "domainurls"
allowed_domains = ["domain.com"]
start_urls = ['http://www.domain.com/used/cars-in-trichy/']
def __init__(self):
self.driver = webdriver.Remote("http://127.0.0.1:4444/wd/hub", webdriver.DesiredCapabilities.HTMLUNITWITHJS)
def parse(self, response):
self.driver.get(response.url)
self.driver.implicitly_wait(5)
hxs = Selector(response)
item = DemoItem()
finalurls = []
while True:
next = self.driver.find_element_by_xpath('//div[@class="showMoreCars hide"]/a')
try:
next.click()
# get the data and write it to scrapy items
item['pageurl'] = response.url
item['title'] = removeUnicodes(hxs.xpath('.//h1[@class="page-heading"]/text()').extract()[0])
urls = self.driver.find_elements_by_xpath('.//a[@id="linkToDetails"]')
for url in urls:
url = url.get_attribute("href")
finalurls.append(removeUnicodes(url))
item['urls'] = finalurls
except:
break
self.driver.close()
return item
<强> items.py 强>
from scrapy.item import Item, Field
class DemoItem(Item):
page = Field()
urls = Field()
pageurl = Field()
title = Field()
注意:强> 您需要运行selenium rc服务器,因为HTMLUNITWITHJS仅使用Python与selenium rc一起使用。
运行发出命令的selenium rc服务器:
java -jar selenium-server-standalone-2.44.0.jar
使用命令运行您的蜘蛛:
spider crawl domainurls -o someoutput.json
答案 1 :(得分:1)
您可以在浏览器中查看请求的执行方式。
在幕后,您点击“显示更多车辆”按钮后,您的浏览器将请求JSON数据提供给您的下一页。您可以利用这一事实直接处理JSON数据,而无需使用JavaScript引擎作为Selenium或PhantomJS。
在您的情况下,作为第一步,您应该模拟用户在您的网络请求发现浏览器用于请求JSON的端点的同时向下滚动由start_url参数和配置文件给出的页面。一般来说,要发现这个端点,浏览器的配置文件工具上有一个XHR(XMLHttpRequest)部分,就像在Safari中一样,您可以浏览用于请求数据的所有资源/端点。
一旦你发现了这个端点,这是一项简单的任务:你将Spider作为start_url给你刚刚发现的端点,根据你的处理和导航JSON,你可以发现它是否是下一页要求的。
P.S。:我看到你的端点网址为http://www.carwale.com/webapi/classified/stockfilters/?city=194&kms=0-&year=0-&budget=0-&pn=2
在这种情况下,我的浏览器请求第二页,您可以在参数pn中看到。在发送请求之前设置一些头参数很重要。我注意到你的标题是:
接受 text / plain, / ; Q = 0.01
Referer http://www.carwale.com/used/cars-in-trichy/
X-Requested-With XMLHttpRequest
sourceid 1
用户代理 Mozilla / 5.0 ...