Question

我正在尝试从网页中提取表中的数据，但仍然收到上述错误。我查看了本网站上的示例以及其他示例，但没有一个直接处理我的问题。请参阅以下代码：

from bs4 import BeautifulSoup

import requests

import pandas as pd

url = 'http://www.espn.com/nhl/statistics/player/_/stat/points/sort/points/year/2015/seasontype/2'

r = requests.get(url)

data = r.text

soup = BeautifulSoup(data, "lxml")

table = soup.find_all('table', class_='dataframe')

rows = table.find_all('tr')[2:]

data = {
    'RK' : [],
    'PLAYER' : [],
    'TEAM' : [],
    'GP' : [],
    'G' : [],
    'A' : [],
    'PTS' : [],
    '+/-' : [],
    'PIM' : [],
    'PTS/G' : [],
    'SOG' : [],
    'PCT' : [],
    'GWG' : [],
    'G1' : [],
    'A1' : [],
    'G2' : [],
    'A2' : []
}

for row in rows:
    cols = row.find_all('td')
    data['RK'].append( cols[0].get_text() )
    data['PLAYER'].append( cols[1].get_text() )
    data['TEAM'].append( cols[2].get_text() )
    data['GP'].append( cols[3].get_text() )
    data['G'].append( cols[4].get_text() )
    data['A'].append( cols[5].get_text() )
    data['PTS'].append( cols[6].get_text() )
    data['+/-'].append( cols[7].get_text() )
    data['PIM'].append( cols[8].get_text() )
    data['PTS/G'].append( cols[9].get_text() )
    data['SOG'].append( cols[10].get_text() )
    data['PCT'].append( cols[11].get_text() )
    data['GWG'].append( cols[12].get_text() )
    data['G1'].append( cols[13].get_text() )
    data['A1'].append( cols[14].get_text() )
    data['G2'].append( cols[15].get_text() )
    data['A2'].append( cols[16].get_text() )

df = pd.DataFrame(data)

df.to_csv("NHL_Players_Stats.csv")

我已经根除错误，通过查看错误是指向表（即Resultset）没有方法find_all并通过注释掉以下行来运行代码：

#rows = table.find_all('tr')[2:]

并改变这个：

for row in rows:

然而，这不会从网页中提取任何数据，只是创建一个带有列标题的.csv文件。

我尝试使用soup.find_all将一些数据直接提取到行中，但是得到以下错误;

    data['GP'].append( cols[3].get_text() )
IndexError: list index out of range

我无法解决。

因此，非常感谢任何帮助。

另外，出于好奇，有没有办法通过以下方式实现预期的结果：

dataframe = pd.read_html('url')

因为，我也试过这个，但要继续保持：

FeatureNotFound: Couldn't find a tree builder with the features you
requested: html5lib. Do you need to install a parser library?

理想情况下，这是我更喜欢的方法，但无法在线找到任何示例。

Answer 1

find_all返回ResultSet，它基本上是一个元素列表。因此，它没有方法find_all，因为这是一个属于单个元素的方法。

如果您只想要一个表格，请使用find代替find_all来查找。

table = soup.find('table', class_='dataframe')

然后，获取它的行应该像你已经完成的那样工作：

rows = table.find_all('tr')[2:]

你得到的第二个错误是因为，由于某种原因，表中的一行似乎只有3个单元格，因此你的cols变量变成了一个只包含索引0,1和2的列表那就是为什么cols[3]会给你一个IndexError。

Answer 2

在使用以下方面实现相同结果方面： dataframe = pd.read_html（'url'）

只使用那个或类似的东西来实现： dataframe = pd.read_html（url，header = 1，index_col = None）

之前我收到错误的原因是因为我没有在“偏好设置”中将Spyder的iPython控制台的后端配置为“自动”。

然而，我仍然试图使用BeautifulSoup来解决这个问题。所以任何有用的评论都会受到赞赏。

AttributeError：'ResultSet'对象没有属性'find_all' - pd.read_html

2 个答案: