Question

我有这个html文件：https://www.sec.gov/Archives/edgar/data/706688/000119312512154452/d292519ddef14a.htm

还有大约一千个这样的文件，都是由使用不同html格式的不同公司提交的。

我对整个文档中的一个表格感兴趣的持有人表格感兴趣。我想用BeautifulSoup解析它。

我能够解析文档中的所有表，但不能解析出我需要的表。如果我有一个关键字列表，例如“受益人”，“持有人”，“所有权”等，那么我将如何仅提取包含列表中任何单词的表？

Answer 1

您可以执行以下操作，然后执行if语句与关键字进行匹配！

import requests
from bs4 import BeautifulSoup

req = requests.get('https://www.sec.gov/Archives/edgar/data/'
    '706688/000119312512154452/d292519ddef14a.htm')
soup = BeautifulSoup(req.content, 'html.parser')
tables = soup.find_all('table')
table = tables[3]#find 4th table from the webpage
print(table.text)

BeautifulSoup：如果HTML表格包含关键字，则解析HTML表格

1 个答案: