Question

我正在尝试抓取一个表的内容，该表包含多行和具有相同类的数据。这是网站：http://tweakers.net/pricewatch/323351/crucial-ballistix-tactical-blt2c4g3d1608et3lx0ceu/specificaties/

所以我的目标是从表类规格细节

中删除品牌名称：Crucial

这是HTML，tr都有相同的类，所以不可能用class选择。

     <div id="tab:specificaties" class="tab_active">

<table class="spec-detail">
    <tbody>
        <tr></tr>
        <tr></tr>
        <tr>
            <td class="spec-index-column"></td>
            <td class="spec-column">
                <a href="http://tweakers.net/merk/306/crucial/">

                    Crucial

                </a>
            </td>
        </tr>
        <tr>
            <td class="spec-index-column">

                Serie

            </td>
            <td class="spec-column">
                <a href="http://tweakers.net/serie/2930/ballistix-tactical/"></a>
            </td>
        </tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
        <tr></tr>
    </tbody>
</table>

这是我的代码：

items = []
            sel = Selector(response)
            products = sel.xpath('//div[@id="tab:specificaties"]')
            category = sel.xpath('//li[@id="tweakbaseBreadcrumbCategory"]/a/text()').extract()
            print(category)
            for product in products:
                if 'Geheugen intern' in category:
                    item = Memory()
                    item['Category'] = category
                    item['Brand'] = ''.join(product.xpath('//tr[contains(td[1], "Merk")]/td[2]/a/text()').extract())
                    items.append(item)

返回

CrucialCrucialCrucial

我也试过

sel.xpath('//*[@id="tab:specificaties"]/table/tbody/tr[3]/td[2]/a/text()')

然而，这没有任何回报。

选择可能与页面上的多个元素匹配，我无法找到分离它们的方法。我怎样才能让这次回归“至关重要”一次？

提前致谢。

Answer 1

通过在其前面加dot来将xpath本地化为特定产品：

product.xpath('.//tr[contains(td[1], "Merk")]/td[2]/a/text()')

演示：

前

>>> for product in products:
...     print product.xpath('//tr[contains(td[1], "Merk")]/td[2]/a/text()').extract()
... 
[u'Crucial', u'Crucial', u'Ballistix Tactical', u'Crucial']

后

>>> for product in products:
...     print product.xpath('.//tr[contains(td[1], "Merk")]/td[2]/a/text()').extract()
... 
[u'Crucial']

Scrapy用同一类多个td抓取td的内容

1 个答案: