熊猫read_html-找不到表格

时间:2019-03-26 14:55:42

标签: python pandas web-scraping beautifulsoup

我正在尝试查看是否可以从WU.com读取数据表,但是由于找不到任何表而收到类型错误。 (这里也是Web抓取的第一个计时器)还有另一个人对WU数据表的stackoverflow问题here非常相似,但是解决方案对我来说有点复杂。

import pandas as pd

df_list = pd.read_html('https://www.wunderground.com/history/daily/us/wi/milwaukee/KMKE/date/2013-6-26')

print(df_list)

On the webpage of historical data for Milwaukee,这是我尝试检索到熊猫中的数据表(daily observations): enter image description here

任何提示帮助,谢谢。

2 个答案:

答案 0 :(得分:2)

页面是动态的,这意味着您需要首先呈现页面。因此,您需要使用Selenium之类的东西来呈现页面,然后可以使用熊猫changedData.oldData = !!changedData.oldData ? changedData.newData : svcVariable; changedData.newData = svcVariable 拉表:

.read_html()

输出:

from selenium import webdriver
import pandas as pd


driver = webdriver.Chrome('C:/chromedriver_win32/chromedriver.exe')
driver.get("https://www.wunderground.com/history/daily/us/wi/milwaukee/KMKE/date/2013-6-26")

html = driver.page_source

tables = pd.read_html(html)
data = tables[1]

driver.close()

答案 1 :(得分:0)

还要检查文件名是否正确,如果要访问不存在的文件,则会收到相同的错误“找不到表” 我在X.htm中犯了一个错误,当时正在查看X.html