Question

我要从https://www.sec.gov/cgi-bin/own-disp?action=getissuer&CIK=0000320193抓取“所有权报告”表

我将如何抓取该表信息？我正在使用硒。

我使用XPath尝试了以下代码my_output = driver.find_elements_by_xpath('/html/body/div/table[1]/tbody/tr[2]/td/table/tbody/tr[3]/td/table')[0].text.split('\n')[1:]，但输出看起来很糟糕。

我希望将这些数据放入Pandas DataFrame中。谁能分享一些想法？非常感谢。

for tr in driver.find_elements_by_xpath('/html/body/div/table[1]/tbody/tr[2]/td/table/tbody/tr[3]/td/table'):
tds = tr.find_elements_by_tag_name('td')
output_lst = [td.text for td in tds]

我在上面找到了一个解决方案-虽然不是很优雅，但是可以完成工作。我期待看到更好的解决方案！

Answer 1

output_lst = []

for tr in driver.find_elements_by_xpath('/html/body/div/table[1]/tbody/tr[2]/td/table/tbody/tr[3]/td/table'):
tds = tr.find_elements_by_tag_name('td')
output_lst = [td.text for td in tds]

上面的编码有效

Python-网站上的硒刮除表

1 个答案: