webscraping表不返回任何数据

时间:2019-04-16 09:35:15

标签: python web-scraping

必需的表的tr元素在开发人员工具中可见,而在Webscraping的源代码中却未显示,对于一个特定的URL,尝试过的selenium以及其他所有内容,但无济于事,无论我尝试什么,我得到的都是输出[ ],如果有人可以帮助我解决问题,那将是非常有帮助的。 首先,我尝试了beautifulsoup,然后尝试了proxycrawl,然后尝试了其他几种方法,但是我无法抓取它,它具有下载选项,但是我需要将它抓取以存储在AWS中并使其自动化以获取每天计划在下午6点发布的数据,并在powerbi上进行更新。 网址为http://scheduling.nrldc.in/wbes/Report/PXIndex#date=16-04-2019|revisionno=null|type=5

1 个答案:

答案 0 :(得分:0)

您确实应该使用WebDriverWait等待表被渲染,但是我遇到了问题,所以只想使用time.sleep

但是,通过让Selenium单击下载csv按钮,您可以轻松获得整个表格。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

url = 'http://scheduling.nrldc.in/wbes/Report/PXIndex#date=16-04-2019|revisionno=null|type=5'

driver = webdriver.Chrome('C:/chromedriver_win32/chromedriver.exe')
driver.get(url)

time.sleep(10)
driver.find_element_by_id("dwnld").click()

time.sleep(2)
driver.find_element_by_id("CsvExport").click()