Question

class Me2Spider(scrapy.Spider):
    name = 'me'
    allowed_domains = ['www.amazon.com']
    start_urls = [
        'https://www.amazon.com/dp/B08DL5SQDM?th=1',
        'https://www.amazon.com/dp/B08DL6D52S?th=1',
        'https://www.amazon.com/dp/B01LW14DG7?th=1'
        ]

    def parse(self, response):
        yield{
            'ASIN': response.xpath('//div[@class="a-section table-padding"]/table[@id="productDetails_detailBullets_sections1"]/tbody/tr[1]/td').get(),
            'Ranking': response.xpath('//*[@id="prodDetails"]/div/div[2]/div[2]/div/div[1]/span[3]/text()').get(),
        }

我以前曾经这样刮过，但现在数据还没有到来。

Answer 1

问题出在xpath中。这就是为什么得到None元素的原因，因为程序没有在寻找正确的元素。

如果您查看亚马逊页面的标记，您会发现ASIN在table内部。具体就是这样

<table id="productDetails_detailBullets_sections1" class="a-keyvalue prodDetTable" role="presentation">
    <tbody>
        <tr>
            <th class="a-color-secondary a-size-base prodDetSectionEntry">
                ASIN
            </th>
            <td class="a-size-base">
                B08DL5SQDM
            </td>
        </tr>

因此，您可以通过找到带有文本ASIN的{{1}}标签并在th元素之后寻找ASIN来访问td号。 / p>

尝试此代码

th

根据mozilla，url = "https://www.amazon.com/dp/B08DL6D52S?th=1" driver.get(url) path = "//th[normalize-space() = 'ASIN']//following-sibling::td" element = driver.find_element_by_xpath(path) print(element.text)被定义为

normalize-space函数去除前导和尾随空白从字符串中，用单个空格字符序列替换空格，并返回结果字符串。

为什么亚马逊的畅销书排名和ASIN数据不来？

1 个答案: