Python-网站上的硒刮除表

时间:2020-06-25 16:46:58

标签: python-3.x selenium-webdriver web-scraping

我要从https://www.sec.gov/cgi-bin/own-disp?action=getissuer&CIK=0000320193抓取“所有权报告”表

我将如何抓取该表信息?我正在使用硒。

我使用XPath尝试了以下代码my_output = driver.find_elements_by_xpath('/html/body/div/table[1]/tbody/tr[2]/td/table/tbody/tr[3]/td/table')[0].text.split('\n')[1:],但输出看起来很糟糕。

我希望将这些数据放入Pandas DataFrame中。谁能分享一些想法?非常感谢。


for tr in driver.find_elements_by_xpath('/html/body/div/table[1]/tbody/tr[2]/td/table/tbody/tr[3]/td/table'):
tds = tr.find_elements_by_tag_name('td')
output_lst = [td.text for td in tds]

我在上面找到了一个解决方案-虽然不是很优雅,但是可以完成工作。我期待看到更好的解决方案!

1 个答案:

答案 0 :(得分:1)

output_lst = []

for tr in driver.find_elements_by_xpath('/html/body/div/table[1]/tbody/tr[2]/td/table/tbody/tr[3]/td/table'):
tds = tr.find_elements_by_tag_name('td')
output_lst = [td.text for td in tds]

上面的编码有效