Question

我正在用scrapy抓取网站，并且在抓取后得到错误的值。

我很确定自己做得对，但是，当我应该得到59的值时，也许我得到89，而网站上的任何地方根本没有89。

我了解这可能是网站上采取的防止刮擦的措施？有没有办法绕过这个？

编辑：

我正在尝试抓取This website，我遇到问题的领域是价格。例如，在第一个服务器（L4i）中，价格应为39（不含小数点），但是，每次尝试时价格为59。

编辑2：

每台服务器的价格都会发生这种情况。我总是得到与显示的值不同的值。

编辑3：

基于@rongon答案，这是我所拥有的所有代码，并且仍然获得错误的值：

import scrapy

class OneAndOneServers(scrapy.Spider):
    name =  "servers"
    start_urls = ['https://www.1and1.com/dedicated-server']

    def parse(self, response):

        price = response.xpath('//div[@data-price-article="tariff-ded-server-l-4i"]//span[@class="price-before-separator"]/text()').extract()

        yield {'price': price}

编辑4：

我很傻。说真的尽管我试图删除.co.uk网站，但我还是用脚本调用了.com网站。箱子关闭了，我的大脑放屁很大，我也有点盲。

Answer 1

问题很可能出在您的xpath / css-extract命令中。

使用以下XPath，我可以毫无问题地提取L4i的价格：

response.xpath('//div[@data-price-article="tariff-ded-server-l-4i"]//span[@class="price-before-separator"]/text()').extract()

如果您要发布代码，我们可能会为您提供更多帮助。

cra草获得错误的值

1 个答案: