无法挖掘链接按钮下的某些信息

时间:2019-05-30 16:19:44

标签: python python-3.x web-scraping

我已经用python编写了一个脚本,以从 webpage 中抓取联系信息。有一个连接到show contact info按钮的链接,该链接应该将我带到联系人联系页面。因此,我对该链接进行了解析,希望可以重用该链接以获取联系信息。但是,新制作的 link 使我无路可走。

如何从该页面的show contact info按钮下提取该信息?

到目前为止,我已经尝试过:

import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

url = "https://denver.craigslist.org/cto/d/2007-acura-mdx-awd/6900719788.html"

with requests.Session() as s:
    s.headers['User-Agent'] = 'Mozilla/5.0'
    r = s.get(url)
    soup = BeautifulSoup(r.text,"lxml")
    item = urljoin(url,soup.select_one(".show-contact").get("href"))
    print(item)

2 个答案:

答案 0 :(得分:0)

使用selenium是实现这一目标的唯一方法,如果您只需要单击button,它就非常容易学习。

基本上,您可以根据自己的喜好通过elementclasstags找到ids。然后,您可以与匹配进行互动,在这种情况下,您需要使用element.click()

答案 1 :(得分:-1)

看看selenium。它可以让您像在浏览器中一样与网页进行交互。您的代码最终将是:

sel_driver.find_element_by_css_selector('.show-contact').click()

这将显示联系信息,您可以根据需要解析结果文本。