这是从我的数据所在的类中提取html数据的代码。但是我如何提取未按顺序给出的必需数据(状态数据) website
title: "R Notebook"
output:
html_document:
include:
in_header: woo.html
---
答案 0 :(得分:2)
import pandas as pd
df = pd.read_html("https://www.mohfw.gov.in/")[-1]
df.to_csv("data.csv", index=False)
输出:Check-Online
答案 1 :(得分:1)
数据包装在tbody元素中。您可以使用以下scrapy代码:
import scrapy
tables= response.xpath("(//tbody)[7]")
for data in tables:
date = data.xpath("..//tr/td/text()")
title_text = data.xpath("(//tbody)[7]/tr/td/a/text()")
title_links = data.xpath("(//tbody)[7]/tr/td/a/@href")
yield {
'Date': date,
'Title': title_text,
'Links': title_links,
}
答案 2 :(得分:1)
您如何使用熊猫。它被组织并直接创建df。例如,您的情况:-
import requests
import pandas as pd
url = 'https://www.mohfw.gov.in/'
html = requests.get(url).content
df_list = pd.read_html(html)
df = df_list[-1]
print(df)