我正在尝试学习网页编写(我是一个新手)。我注意到在一些网站上(例如Quora),当我点击一个按钮并且屏幕上出现一个新元素时。我似乎无法获得新元素的页面源。我希望能够获得新弹出窗口的页面源并获取所有元素。请注意,您需要拥有Quora帐户才能了解我的问题。
我有一部分代码,你可以使用beautifulsoup,selenium和chromedriver:
from selenium import webdriver
from bs4 import BeautifulSoup
from unidecode import unidecode
import time
sleep = 10
USER_NAME = 'Insert Account name' #Insert Account name here
PASS_WORD = 'Insert Account Password' #Insert Account Password here
url = 'Insert url'
url2 = ['insert url']
#Logging in to your account
driver = webdriver.Chrome('INSERT PATH TO CHROME DRIVER')
driver.get(url)
page_source=driver.page_source
if 'Continue With Email' in page_source:
try:
username = driver.find_element(By.XPATH, '//input[@placeholder="Email"]')
password = driver.find_element(By.XPATH, '//input[@placeholder="Password"]')
login= driver.find_element(By.XPATH, '//input[@value="Login"]')
username.send_keys(USER_NAME)
password.send_keys(PASS_WORD)
time.sleep(sleep)
login.click()
time.sleep(sleep)
except:
print ('Did not work :( .. Try again')
else:
print ('Did not work :( .. Try different page')
下一部分将转到相关网页,("尝试")收集有关特定问题关注者的信息。
for url1 in url2:
driver.get(url1)
source = driver.page_source
soup1 = BeautifulSoup(source,"lxml")
Follower_button = soup1.find('a',{'class':'FollowerListModalLink QuestionFollowerListModalLink'})
Follower_button2 = unidecode(Follower_button.text)
driver.find_element_by_link_text(Follower_button2).click()
####Does not gives me correct page source in the next line####
source2=driver.page_source
soup2=BeautifulSoup(source2,"lxml")
follower_list = soup2.findAll('div',{'class':'FollowerListModal QuestionFollowerListModal Modal'})
if len(follower_list)>0:
print 'It worked :)'
else:
print 'Did not work :('
然而,当我尝试获取followers元素的页面源时,我最终获得主页面的页面源而不是follower元素。任何人都可以帮助我获取弹出的跟随元素的页面源?我没有到这里来。
注意: 重新创建或查看我的问题的另一种方法是登录您的Quora帐户(如果有的话)然后转到跟随者的任何问题。如果单击屏幕右下方的“关注者”按钮,则会弹出一个弹出窗口。我的问题主要是获取此弹出窗口的元素。
更新 - 好的,所以我一直在阅读,似乎窗口是一个模态窗口。有没有人帮助我获取模态窗口的内容?
答案 0 :(得分:0)
问题已解决。我所要做的只是添加一行:
time.sleep(sleep_time)
生成点击后。问题是因为最初没有等待时间,页面源没有得到更新。但是,由于time.sleep足够长(可能因网站而异),页面源最终得到更新,我能够获得所需的元素。 :) 学习到教训了。耐心是网络抓取的关键。花了一整天试图解决这个问题。