使用python提取JavaScript表

时间:2018-05-17 16:30:16

标签: python selenium web-scraping beautifulsoup

我是python的初学者,我正试图弄清楚如何从这个网站中提取数据:https://www.tokendata.io/。通常我使用漂亮的汤处理HTML表,但这似乎需要使用硒。有谁可以帮助我。我迫切需要我论文的数据。

1 个答案:

答案 0 :(得分:0)

你的意思是你想要加载页面并将div.dataTables_scrollBody的HTML表格中的数据提取到python中的对象,如元组

tabletuple = [('EOS','Active','$3,272,911,705.00','Jun 2018','','','',''),('Telegrame Open Network',"Completed",'1,700,000,000.00   ','Apr 2018','','',''),...etc

你可以通过获取硒来做到这一点 表由css选择器“div.dataTables_scrollBody”

下面是一些带有webdriver的示例代码,用于通过selenium webdriver获取行文本的索引1行和索引1列。您可以将其与上面的代码一起使用,以创建HTML表格中的数据元组

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--allow-file-access-from-files")
chrome_options.add_argument("--allow-running-insecure-content")
chrome_driver_path = os.path.join(driver_path, "chromedriver.exe")
print("\n ChromeDriverPath: " + chrome_driver_path)
driver = webdriver.Chrome(executable_path=chrome_driver_path, 
chrome_options=chrome_options)
table_element = driver.find_element(by=By.CSS_SELECTOR,    value='div.dataTables_scrollBody')

rows = table_element.find_elements_by_xpath("./tr")
row = 1
row_elements = rows[row].find_elements_by_xpath("./td")
column = 1
text_element = row_elements[column].get_attribute("innerText")