我使用请求模块从网页内容中创建HTML对象。我尝试使用熊猫对该对象进行read_html读取,但是它只是创建了一个庞大的列表。它看起来像一个数据框,但类型表示列表,我无法在其上调用数据框方法。
这是我在获取HTML对象后为其编写的代码:
headers = {'User-Agent': ua.google}
tables = pd.read_html(response.content)
这是我调用表格时的样子:
看起来不错,一旦数据帧形式的错误数据就可以修复,但我不知道如何将其从类型列表更改为数据帧,而且我也不知道为什么首先进入列表而不是数据框。
作为第二个说明,我尝试使用BeautifulSoup读取HTML并提取表,该表只给了我表的内容,但是当我尝试通过pandas读取它时,如果我尝试pd.read_html(str(表)),然后预览数据框,我只是在列表中获得站点名称和底部内容,而不是数据框。
答案 0 :(得分:2)
pandas.read_html
返回一个数据帧列表。
尝试:
tables[0]
与Google合作实验室进行实验。