Pandas不断从HTML输入中创建列表而不是DataFrames

时间:2018-08-19 00:25:29

标签: python pandas dataframe beautifulsoup python-requests

我使用请求模块从网页内容中创建HTML对象。我尝试使用熊猫对该对象进行read_html读取,但是它只是创建了一个庞大的列表。它看起来像一个数据框,但类型表示列表,我无法在其上调用数据框方法。

这是我在获取HTML对象后为其编写的代码:

headers = {'User-Agent': ua.google}

tables = pd.read_html(response.content)

这是我调用表格时的样子:

Table

看起来不错,一旦数据帧形式的错误数据就可以修复,但我不知道如何将其从类型列表更改为数据帧,而且我也不知道为什么首先进入列表而不是数据框。

作为第二个说明,我尝试使用BeautifulSoup读取HTML并提取表,该表只给了我表的内容,但是当我尝试通过pandas读取它时,如果我尝试pd.read_html(str(表)),然后预览数据框,我只是在列表中获得站点名称和底部内容,而不是数据框。

1 个答案:

答案 0 :(得分:2)

pandas.read_html返回一个数据帧列表。

尝试:

 tables[0]

与Google合作实验室进行实验。

Code runs here

Notebook can be found on my github here