我正在尝试从网站中提取属性,但获取空元素。
在srapy shell中使用此代码:
fetch('https://www.chronext.de/breitling/galactic/w7234812-a785-249s-a12d-4/C79467')
from w3lib.html import remove_tags
[remove_tags(w).strip() for w in response.xpath('//table[@class="compact margin-top-half"][1]/tr/td[2]/text()').extract()]
我得到:
['C77316', '279175', 'Damen', 'Automatik', '28\xa0mm', 'Roségold', 'Roségold', 'Saphirglas', '', '', '', '2018', 'Originale Box', 'Originale Hersteller Papiere', 'CHRONEXT Echtheitszertifikat', 'Zusätzlich zur Herstellergarantie erhalten Sie eine 2-jährige CHRONEXT Garantie ab Kaufdatum.']
这令人惊讶,因为我用/ div [2]瞄准了第二个盒子,但是从两个盒子中都收到了元素。
我也尝试过:
[x.strip() for x in response.xpath('//div[@class="row force-inside-container-behavior"]/div[2]/table/tr/td[2]/text()').extract()]
返回以下内容:
['', '', '', '2018', 'Originale Box', 'Originale Hersteller Papiere', 'CHRONEXT Echtheitszertifikat', 'Zusätzlich zur Herstellergarantie erhalten Sie eine 2-jährige CHRONEXT Garantie ab Kaufdatum.']
我的目标是获得键/值对的字典。例如。 “条件” =“良好”。第一个盒子没有问题,然后我想让我们分别得到第二个盒子并扩展列表。
键不是问题,但是我尝试获取的值返回了这3-4个空元素,一旦我稍后将键/值放在一起,这将使顺序不同步。删除3个空白字段可能不是一个好的选择,因为此站点上的另一个页面可能会稍有不同。
每个键值如何获取一个元素?
答案 0 :(得分:1)
您要提取那些规格吗?
这是100%的工作代码,可从规格表中提取键/值对
specs = {}
for td in response.css(".specifications .col.s12.l5")[0].css("tr"):
specs[td.css("td")[0].css("::text").extract_first()] = td.css("td")[1].css("::text").extract_first()
{u'Uhr f\xfcr': u'Damen', u'Glas': u'Saphirglas', u'Artikel\xadnummer': u'C79467', u'Gr\xf6\xdfe (Geh\xe4use)': u'29\xa0mm', u'Material (Geh\xe4use)': u'Edelstahl', u'Werk': u'Quarz', u'Armband': u'Kautschuk', u'Referenz': u'W7234812.A785.249S.A12D.4'}