如何从动态页面提取href和图像源链接?

时间:2019-04-02 15:20:59

标签: python selenium-chromedriver

我正在尝试获取www.jtinsight.com分类信息部分的href和img src。由于它似乎是一个动态页面,所以我无法识别出正确的标签或代码来挑选它们。

我最近问了一个关于同一页面的问题,并得到了有关我选择后提取标题的时间的解答。我已经更改了代码,以便它可以选择标题并设法提取页面上的所有URL,但是,我只是在那些与分类部分相关的URL之后-我无法解决这个问题。当尝试从div'mainCatEntry'中提取信息时,我无法获取要提取的URl或img src链接。

from selenium import webdriver
import time

# The website to scrape
url = "https://www.jtinsight.com/JTIRA/JTIRA.aspx#!/main"

# Creating the WebDriver object using the ChromeDriver
driver = webdriver.Chrome()

# Directing the driver to the defined url
driver.get(url)

time.sleep(3)

# Locate the categories
categories = driver.find_elements_by_xpath('//div[@class="mainCatEntry"]')

# Print out all categories on current page
num_page_items = len(categories)
print(num_page_items)
for headers in range(num_page_items):
    print(categories[headers].text)

# Locate all the links
links = driver.find_elements_by_xpath('//a[@href]')
list_items = len(links)
print(list_items)

# identify the Classifieds categories links
for classifieds in links:
    print(classifieds.get_attribute('href'))

# Clean up (close browser once task is completed)
time.sleep(2)
driver.close()

对于这一切,我当然是陌生的,也许完全以错误的方式进行操作,因此不胜感激任何建议或指示。

0 个答案:

没有答案