我正在尝试获取www.jtinsight.com分类信息部分的href和img src。由于它似乎是一个动态页面,所以我无法识别出正确的标签或代码来挑选它们。
我最近问了一个关于同一页面的问题,并得到了有关我选择后提取标题的时间的解答。我已经更改了代码,以便它可以选择标题并设法提取页面上的所有URL,但是,我只是在那些与分类部分相关的URL之后-我无法解决这个问题。当尝试从div'mainCatEntry'中提取信息时,我无法获取要提取的URl或img src链接。
from selenium import webdriver
import time
# The website to scrape
url = "https://www.jtinsight.com/JTIRA/JTIRA.aspx#!/main"
# Creating the WebDriver object using the ChromeDriver
driver = webdriver.Chrome()
# Directing the driver to the defined url
driver.get(url)
time.sleep(3)
# Locate the categories
categories = driver.find_elements_by_xpath('//div[@class="mainCatEntry"]')
# Print out all categories on current page
num_page_items = len(categories)
print(num_page_items)
for headers in range(num_page_items):
print(categories[headers].text)
# Locate all the links
links = driver.find_elements_by_xpath('//a[@href]')
list_items = len(links)
print(list_items)
# identify the Classifieds categories links
for classifieds in links:
print(classifieds.get_attribute('href'))
# Clean up (close browser once task is completed)
time.sleep(2)
driver.close()
对于这一切,我当然是陌生的,也许完全以错误的方式进行操作,因此不胜感激任何建议或指示。