使用python,BeautifulSoup和pandas'read_html'进行网页抓取的问题

时间:2020-05-29 11:10:53

标签: python pandas beautifulsoup

谢谢您的帮手!

我正在抓取有关covid19的数据表,并将其推入熊猫数据框,直到今天早上它一直在工作。

该代码:

import pandas as pd
import requests
from bs4 import BeautifulSoup


url = 'https://www.worldometers.info/coronavirus/'

req = requests.get(url)

page = BeautifulSoup(req.content, 'html.parser')

table = page.find_all('table',id="main_table_countries_today")[0]

print(table)

df = pd.read_html(str(table))[0]

今天早上,我开始遇到下一个错误:

ValueError: No tables found matching pattern '.+'

您能帮我弄清楚吗?

1 个答案:

答案 0 :(得分:1)

尝试将最后一行更改为:df = pd.read_html(str(table), displayed_only=False)[0] 网址中的表格标题已将其样式属性更改为style =“ width:100%; margin-top:0px!important; display:none;”。以前它没有设置“显示”标签。