我是python的初学者,我正试图弄清楚如何从这个网站中提取数据:https://www.tokendata.io/。通常我使用漂亮的汤处理HTML表,但这似乎需要使用硒。有谁可以帮助我。我迫切需要我论文的数据。
答案 0 :(得分:0)
你的意思是你想要加载页面并将div.dataTables_scrollBody的HTML表格中的数据提取到python中的对象,如元组
tabletuple = [('EOS','Active','$3,272,911,705.00','Jun 2018','','','',''),('Telegrame Open Network',"Completed",'1,700,000,000.00 ','Apr 2018','','',''),...etc
你可以通过获取硒来做到这一点 表由css选择器“div.dataTables_scrollBody”
下面是一些带有webdriver的示例代码,用于通过selenium webdriver获取行文本的索引1行和索引1列。您可以将其与上面的代码一起使用,以创建HTML表格中的数据元组
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--allow-file-access-from-files")
chrome_options.add_argument("--allow-running-insecure-content")
chrome_driver_path = os.path.join(driver_path, "chromedriver.exe")
print("\n ChromeDriverPath: " + chrome_driver_path)
driver = webdriver.Chrome(executable_path=chrome_driver_path,
chrome_options=chrome_options)
table_element = driver.find_element(by=By.CSS_SELECTOR, value='div.dataTables_scrollBody')
rows = table_element.find_elements_by_xpath("./tr")
row = 1
row_elements = rows[row].find_elements_by_xpath("./td")
column = 1
text_element = row_elements[column].get_attribute("innerText")