Question

必需的表的tr元素在开发人员工具中可见，而在Webscraping的源代码中却未显示，对于一个特定的URL，尝试过的selenium以及其他所有内容，但无济于事，无论我尝试什么，我得到的都是输出[ ]，如果有人可以帮助我解决问题，那将是非常有帮助的。首先，我尝试了beautifulsoup，然后尝试了proxycrawl，然后尝试了其他几种方法，但是我无法抓取它，它具有下载选项，但是我需要将它抓取以存储在AWS中并使其自动化以获取每天计划在下午6点发布的数据，并在powerbi上进行更新。网址为http://scheduling.nrldc.in/wbes/Report/PXIndex#date=16-04-2019|revisionno=null|type=5

Answer 1

您确实应该使用WebDriverWait等待表被渲染，但是我遇到了问题，所以只想使用time.sleep

但是，通过让Selenium单击下载csv按钮，您可以轻松获得整个表格。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

url = 'http://scheduling.nrldc.in/wbes/Report/PXIndex#date=16-04-2019|revisionno=null|type=5'

driver = webdriver.Chrome('C:/chromedriver_win32/chromedriver.exe')
driver.get(url)

time.sleep(10)
driver.find_element_by_id("dwnld").click()

time.sleep(2)
driver.find_element_by_id("CsvExport").click()

webscraping表不返回任何数据

1 个答案: