Question

我正在使用BeautifulSoup尝试从MLB游戏日页面中抓取数据。

现在，我只是想提取游戏日ID。

这是一个页面示例：

url = "http://gd2.mlb.com/components/game/mlb/year_2017/month_04/day_20/epg.xml"

soup = BeautifulSoup(urlopen(d_url), "lxml")

此后，我不确定如何导航和查找ID。

每个游戏将它们存储在2个不同的位置：

  game_data_directory="/components/game/mlb/year_2017/month_04/day_20/
                       gid_2017_04_20_bosmlb_tormlb_1"

gameday="2017_04_20_bosmlb_tormlb_1"

找到然后存储ID的最佳方法是什么？

谢谢。

Answer 1

data = requests.get('http://gd2.mlb.com/components/game/mlb/year_2017/month_04/day_20/epg.xml')
data = BeautifulSoup(data.content, "lxml")

for game in data.find_all('game'):
    print(game['game_data_directory'])
    pos = game['game_data_directory'].rfind('/')
    print(game['game_data_directory'][46:])

搜寻MLB游戏日数据

1 个答案: