我正在用scrapy抓取网站,并且在抓取后得到错误的值。
我很确定自己做得对,但是,当我应该得到59的值时,也许我得到89,而网站上的任何地方根本没有89。
我了解这可能是网站上采取的防止刮擦的措施?有没有办法绕过这个?
编辑:
我正在尝试抓取This website,我遇到问题的领域是价格。例如,在第一个服务器(L4i)中,价格应为39(不含小数点),但是,每次尝试时价格为59。
编辑2:
每台服务器的价格都会发生这种情况。我总是得到与显示的值不同的值。
编辑3:
基于@rongon答案,这是我所拥有的所有代码,并且仍然获得错误的值:
import scrapy
class OneAndOneServers(scrapy.Spider):
name = "servers"
start_urls = ['https://www.1and1.com/dedicated-server']
def parse(self, response):
price = response.xpath('//div[@data-price-article="tariff-ded-server-l-4i"]//span[@class="price-before-separator"]/text()').extract()
yield {'price': price}
编辑4:
我很傻。说真的尽管我试图删除.co.uk网站,但我还是用脚本调用了.com网站。箱子关闭了,我的大脑放屁很大,我也有点盲。
答案 0 :(得分:0)
问题很可能出在您的xpath / css-extract命令中。
使用以下XPath,我可以毫无问题地提取L4i的价格:
response.xpath('//div[@data-price-article="tariff-ded-server-l-4i"]//span[@class="price-before-separator"]/text()').extract()
如果您要发布代码,我们可能会为您提供更多帮助。