如何从网页展开列表(+)并获取标题和时间?我是网络抓取的新手,所以请指导我。
driver = webdriver.Firefox()
driver.get("http://www.simplilearn.com/big-data-and-analytics/big-data-hadoop-architect-masters-program-training")
html = driver.page_source
soup = BeautifulSoup(html,"lxml")
答案 0 :(得分:0)
使用Selenium非常容易。您只需要首先找到展开按钮的xpath。以下是扩展大数据和Hadoop开发人员的示例。给定页面上的列。
elem = driver.find_element_by_xpath('//*[@id="body_content"]/div[1]/div[7]/div[1]/div[1]/ul/li[1]/div[1]/span')
elem.click()