必需的表的tr元素在开发人员工具中可见,而在Webscraping的源代码中却未显示,对于一个特定的URL,尝试过的selenium以及其他所有内容,但无济于事,无论我尝试什么,我得到的都是输出[ ],如果有人可以帮助我解决问题,那将是非常有帮助的。
首先,我尝试了beautifulsoup
,然后尝试了proxycrawl
,然后尝试了其他几种方法,但是我无法抓取它,它具有下载选项,但是我需要将它抓取以存储在AWS中并使其自动化以获取每天计划在下午6点发布的数据,并在powerbi
上进行更新。
网址为http://scheduling.nrldc.in/wbes/Report/PXIndex#date=16-04-2019|revisionno=null|type=5
答案 0 :(得分:0)
您确实应该使用WebDriverWait
等待表被渲染,但是我遇到了问题,所以只想使用time.sleep
但是,通过让Selenium单击下载csv按钮,您可以轻松获得整个表格。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
url = 'http://scheduling.nrldc.in/wbes/Report/PXIndex#date=16-04-2019|revisionno=null|type=5'
driver = webdriver.Chrome('C:/chromedriver_win32/chromedriver.exe')
driver.get(url)
time.sleep(10)
driver.find_element_by_id("dwnld").click()
time.sleep(2)
driver.find_element_by_id("CsvExport").click()