Question

这是从我的数据所在的类中提取html数据的代码。但是我如何提取未按顺序给出的必需数据（状态数据） website

title: "R Notebook"
output:
  html_document:
    include:
      in_header: woo.html
---

Answer 1

import pandas as pd

df = pd.read_html("https://www.mohfw.gov.in/")[-1]

df.to_csv("data.csv", index=False)

输出：Check-Online

Answer 2

数据包装在tbody元素中。您可以使用以下scrapy代码：

import scrapy
tables= response.xpath("(//tbody)[7]")
for data in tables:
    date = data.xpath("..//tr/td/text()")
    title_text = data.xpath("(//tbody)[7]/tr/td/a/text()")
    title_links = data.xpath("(//tbody)[7]/tr/td/a/@href")

    yield {
        'Date': date,
        'Title': title_text,
        'Links': title_links,
    }

Answer 3

您如何使用熊猫。它被组织并直接创建df。例如，您的情况：-

import requests
import pandas as pd
url = 'https://www.mohfw.gov.in/'
html = requests.get(url).content
df_list = pd.read_html(html)
df = df_list[-1]
print(df)

我如何从此网站（https://www.mohfw.gov.in/）中提取印度冠状病毒病例的状态数据（状态名称，受影响和死亡）

3 个答案: