我有这个html文件:https://www.sec.gov/Archives/edgar/data/706688/000119312512154452/d292519ddef14a.htm
还有大约一千个这样的文件,都是由使用不同html格式的不同公司提交的。
我对整个文档中的一个表格感兴趣的持有人表格感兴趣。我想用BeautifulSoup解析它。
我能够解析文档中的所有表,但不能解析出我需要的表。如果我有一个关键字列表,例如“受益人”,“持有人”,“所有权”等,那么我将如何仅提取包含列表中任何单词的表?
答案 0 :(得分:0)
您可以执行以下操作,然后执行if语句与关键字进行匹配!
import requests
from bs4 import BeautifulSoup
req = requests.get('https://www.sec.gov/Archives/edgar/data/'
'706688/000119312512154452/d292519ddef14a.htm')
soup = BeautifulSoup(req.content, 'html.parser')
tables = soup.find_all('table')
table = tables[3]#find 4th table from the webpage
print(table.text)