我如何从此网站(https://www.mohfw.gov.in/)中提取印度冠状病毒病例的状态数据(状态名称,受影响和死亡)

时间:2020-03-26 04:17:15

标签: python web-scraping beautifulsoup data-science

这是从我的数据所在的类中提取html数据的代码。但是我如何提取未按顺序给出的必需数据(状态数据website

title: "R Notebook"
output:
  html_document:
    include:
      in_header: woo.html
---

3 个答案:

答案 0 :(得分:2)

import pandas as pd

df = pd.read_html("https://www.mohfw.gov.in/")[-1]

df.to_csv("data.csv", index=False)

输出:Check-Online

enter image description here

答案 1 :(得分:1)

数据包装在tbody元素中。您可以使用以下scrapy代码:

import scrapy
tables= response.xpath("(//tbody)[7]")
for data in tables:
    date = data.xpath("..//tr/td/text()")
    title_text = data.xpath("(//tbody)[7]/tr/td/a/text()")
    title_links = data.xpath("(//tbody)[7]/tr/td/a/@href")

    yield {
        'Date': date,
        'Title': title_text,
        'Links': title_links,
    }

答案 2 :(得分:1)

您如何使用熊猫。它被组织并直接创建df。例如,您的情况:-

import requests
import pandas as pd
url = 'https://www.mohfw.gov.in/'
html = requests.get(url).content
df_list = pd.read_html(html)
df = df_list[-1]
print(df)