我要从https://www.sec.gov/cgi-bin/own-disp?action=getissuer&CIK=0000320193抓取“所有权报告”表
我将如何抓取该表信息?我正在使用硒。
我使用XPath尝试了以下代码my_output = driver.find_elements_by_xpath('/html/body/div/table[1]/tbody/tr[2]/td/table/tbody/tr[3]/td/table')[0].text.split('\n')[1:]
,但输出看起来很糟糕。
我希望将这些数据放入Pandas DataFrame中。谁能分享一些想法?非常感谢。
for tr in driver.find_elements_by_xpath('/html/body/div/table[1]/tbody/tr[2]/td/table/tbody/tr[3]/td/table'):
tds = tr.find_elements_by_tag_name('td')
output_lst = [td.text for td in tds]
我在上面找到了一个解决方案-虽然不是很优雅,但是可以完成工作。我期待看到更好的解决方案!
答案 0 :(得分:1)
output_lst = []
for tr in driver.find_elements_by_xpath('/html/body/div/table[1]/tbody/tr[2]/td/table/tbody/tr[3]/td/table'):
tds = tr.find_elements_by_tag_name('td')
output_lst = [td.text for td in tds]
上面的编码有效