用蟒蛇美丽的汤解析NBA参考

时间:2016-09-21 09:02:26

标签: python html parsing beautifulsoup

所以我试图使用python和美丽的汤从这个网站http://www.basketball-reference.com/leagues/NBA_2016.html中删除杂项统计表。这是基本代码到目前为止我只是想看看它是否正在读表,但是当我打印表时我就得不到。

from bs4 import BeautifulSoup
import requests
import pandas as pd 

url = "http://www.basketball-reference.com/leagues/NBA_2016.html"
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data)

table = soup.find('table', id='misc_stats')
print table

当我检查网页本身的html时,我想要的表格会在前面<!--显示该符号,而该部分的html文本为绿色。我能做什么?

1 个答案:

答案 0 :(得分:2)

<!--是评论的开头,-->是html的结尾,所以只需在解析之前删除评论:

from bs4 import BeautifulSoup
import requests
comm = re.compile("<!--|-->")

html = requests.get("http://www.basketball-reference.com/leagues/NBA_2016.html").content
cleaned_soup = BeautifulSoup(re.sub("<!--|-->","", html))


tableStats = cleaned_soup.find('table', {'id':'team_stats'})

print(tableStats)