Question

当我迭代课程时，获取网页的所有href。相反，我需要一个我感兴趣的人。

源代码：

<div class="col-sm-3 product-item-image ">
    <a href="/venta/departamento/vallenar-atacama/4431575-centro-vallenar-uda?tp=2&amp;op=1&amp;iug=25&amp;ca=3&amp;ts=1&amp;mn=2&amp;or=&amp;sf=1&amp;sp=0&amp;at=0&amp;i=0">
        <img src="https://image.portalinmobiliario.cl/Portal/Propiedades/4431575_jxsysazc3fu_h100.jpg"></a>
</div>

抓取代码

linkss = browser.find_elements_by_css_selector('.col-sm-3.product-item-image ')
el = []
for fotos in linkss:
    for elem in browser.find_elements_by_tag_name("a"):
        el.append(elem.get_attribute('href'))
print(el)

此代码获取网页的所有链接。在类col-sm-3 product-item-image下只需要一个href。

Answer 1

尝试更改以下行

for fotos in linkss:
    for elem in browser.find_elements_by_tag_name("a"):

到

for fotos in linkss:
    for elem in fotos.find_elements_by_xpath("./a"):

您正在获取所有链接，因为脚本正在查找带有标签a的所有元素，而不是在fotos元素中进行查找。

Answer 2

但是我试图找到WIHTIN类。这就是为什么没想到所有... 我会尝试您的技巧，会看到;）谢谢，顺便说一句

Answer 3

这对我有用：

browser.find_elements_by_css_selector（“。col-sm-3.product-item-image> a”）

现在我得到了我所需要的！！ ;）

在子类中仅获取一个href

3 个答案: