我正在使用pandas read_html查找特定网页中的所有表格;但是,这个过程似乎缺少了一些表格。
以下是网页:https://www.uspto.gov/web/offices/ac/ido/oeip/taf/mclsstc/mcls1.htm
这是我的简单例子:
.then()
此过程找到17个表中的9个。如何使用此方法查找所有表?
注意:如果我在其他地理区域的页面上尝试此操作,我也遇到同样的问题。
答案 0 :(得分:0)
似乎pd.read_html
函数无法找到所有表标记。
我建议您使用BeautifulSoup和urllib2个包来完成此任务。您可以通过pip install <package_name>
安装它。
import urllib2
from bs4 import BeautifulSoup
html_text = urllib2.urlopen("https://www.uspto.gov/web/offices/ac/ido/oeip/taf/mclsstc/mcls1.htm")
bs_obj = BeautifulSoup(html_text)
tables = bs_obj.findAll('table')
dfs = list()
for table in tables:
df = pd.read_html(str(table))[0]
dfs.append(df)
结果,您在dfs列表中拥有所有表(在DataFrame类型中)。