Question

我正在使用cheerio进行网页抓取，我之前使用过bs4。

我想刮掉https://rera.kerala.gov.in/rera_project_details这个网站，在python中刮擦表，我们可以使用findall（“ tr”）[0]来获得第一个tr

但是如何在欢乐中表现相同。

下面是我的代码

var request = require('request');
var cheerio = require('cheerio');
var fs = require('fs');


const url = "https://rera.kerala.gov.in/rera_project_details";

const arr = [];
request({method:"GET",url}, function(err, res, body){
if (res.statusCode==200){

    let $  = cheerio.load(body);
    const getID = $("#block-zircon-content");
    const tbody = getID.find('tbody');
    tbody.each((i, el)=>{
    const ff = $(el).find("tr");
    console.log(ff.html());//it returns first tr
    //how to get 2 tr so that i can get td of second tr and can inde on td also
    })
    

}}
)

如果我循环返回所有tr，现在如何在每个td上建立索引，以便在表的最后一列中获得链接以获取pdf？

（从此处编辑）我到这里为止，但是如何在tr中获取td元素列表

    const getID = $(".views-table");
    
    const getBody = getID.find("tbody");
    
    const gettr = getBody.find("tr");
    const getfirsttr = $.html(gettr[0]);//it gives me first tr
    const getfirsttd = getfirsttr.find("td")//does not work

Answer 1

您应该能够使用选择器，该选择器将为您提供所需表中的所有元素。拥有元素后，就可以访问它们的属性，子元素等。

const url = "https://rera.kerala.gov.in/rera_project_details";
request({method:"GET",url}, function(err, res, body) {
    if (res.statusCode==200) {
        let $ = cheerio.load(body);
        // Get all td elements from the table.
        let tdElements = $("#block-zircon-content tbody tr td").map((i, el)=>{
            return el;
        }).toArray();
        console.log(`<td> list: Found ${tdElements.length} elements..`);
        console.log("tdElements[0]:", tdElements[0]);
        console.log("tdElements[0]: (html)", $.html(tdElements[0]))
    }}
);

要简单地使用.find（）查找表中的所有td元素，我们可以尝试：

const trElements = $("#block-zircon-content tbody").find("tr");
const tdElements = trElements.find("td").toArray();
console.log(`first td:`, tdElements[0]);

Answer 2

要回答索引问题：

$('tr').eq(n)

将给您第n个tr作为加油对象。和

$('tr')[n]

将其作为parse5对象

Answer 3

经过特里的研究和帮助之后，我已经了解了它的工作原理。所有的cheerio函数都适用于选择器html，而不适用于文本。

下面是我的代码，以防像我这样的其他初学者使用cheerio并卡住

var request = require('request');
var cheerio = require('cheerio');
var fs = require('fs');
// const { get } = require('request');
// const { EACCES } = require('constants');


const url = "https://rera.kerala.gov.in/rera_project_details";

const arr = [];
request({method:"GET",url}, function(err, res, body){
if (res.statusCode==200){

    let $  = cheerio.load(body);
    // this is a selector  
    const getID = $(".views-table");
    
    const getBody = getID.find("tbody");
    
    const gettr = getBody.find("tr");
    gettr.each((index, element)=>{
        // if i use normal element it will be treated as normal text but children are avaiable
        //ON SELECTORS WE CAN APPLY ALL FUNCTIONS
        var std = $(element).find("td")
        let number = $(std[0]).contents().text();
        let ReraNumbers = $(std[1]).contents().text();
        let name = $(std[2]).contents().text().trim()
        // difference between tohtml and html is $.html retunr html tag
        // to html returns html content
    })
    

    //        const tdElements= gettr.find("td").toArray();
    // console.log(tdElements[2].children[0].data.trim())

    // let tdElements = $("#block-zircon-content tbody tr td").map((i, el)=>{
    //     return el;
    // }).toArray();
    // console.log(`<td> list: Found ${tdElements.length} elements..`);
    // console.log("tdElements[0]:", tdElements[0]);
    // console.log("tdElements[0]: (html)", $.html(tdElements[0]))


}}
)

如何在cheerio中执行索引以进行网页抓取

3 个答案: