表格抓取Python

时间:2020-04-18 17:25:49

标签: python beautifulsoup

我当前正在尝试分析此表:http://kuap.ru/banks/8012/balances/en 但是,我遇到了一个问题:该表包含许多用于下拉列表的选项(我不需要),并且tbody似乎意外地终止于表的开头。

所以,基本上,我有三个问题:

  1. 能否请您提供工作代码来解析整个表格?解析表并将其转换为数据框
  2. 是否可以从此类表中的特定行进行解析?像“以id开头...”一样?
  3. 是否可以仅解析表中的特定列? (其中的列没有特定的ID)。例如,我可以仅从前两列(名称和第一列带有数字吗?)中抓取数据吗?

非常感谢!

1 个答案:

答案 0 :(得分:0)

import pandas as pd

df = pd.read_html("http://kuap.ru/banks/8012/balances/en", skiprows=[0])[-1]

df.drop(df.columns[-1], axis=1, inplace=True)

print(df)

enter image description here