WebSscpping与BeautifulSoup

时间:2016-01-14 01:28:36

标签: python python-3.x web-scraping beautifulsoup

我是beautifulsoup的新手,我在篮球参考上使用它时遇到了麻烦。我试图将高级统计数据的整个数据帧存储到pandas数据帧中,但我甚至无法选择它。到目前为止,这是我的代码:

from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd


url='http://www.basketball-reference.com/teams/ATL/2016.html'
html = urlopen(url)
soup = BeautifulSoup(html)

soup.findAll('table',attrs={'id': 'advanced'})

从上面的代码中选择高级后,我看到了我需要的html,但我实际上无法解析和提取数据。

1 个答案:

答案 0 :(得分:0)

找到table元素并让read_html()执行解析和数据框初始化作业:

table = soup.find('table', attrs={'id': 'advanced'})

df = pd.read_html(str(table))
print(df)  # prints a dataframe with 15 rows x 27 columns