p取表格以使用伪造者获取特定数据

时间:2018-07-26 09:20:11

标签: html web-scraping puppeteer

<tbody class="ant-table-tbody">
  <tr class="ant-table-row ant-table-row-level-0">
    <td class>
      <span class="ant-table-row-indent indent-level-0" style="padding-left: 0px;"</span>
      "Bombay"
      </td>
    <td class>
       <label class="ant-checkbox-wrapper">
         <span class="ant-checkbox ant-checkbox-checked">
           <input type="checkbox" class="ant-checkbox-input" value="on">
       </label>
     </td>
    <td class>
       <div>
         <i class ="anticon anticon-delete">
           ::before
         </i>
       </div>
     </td>
  </tr>
<tr class="ant-table-row ant-table-row-level-0">...<tr>
<tr class="ant-table-row ant-table-row-level-0">...<tr>
<tr class="ant-table-row ant-table-row-level-0">...<tr>
<tr class="ant-table-row ant-table-row-level-0">...<tr>
<tr class="ant-table-row ant-table-row-level-0">...<tr>
<tr class="ant-table-row ant-table-row-level-0">...<tr>

我具有此表结构,其中每个<td>行都有三个单独的<tr>。我正在尝试使用puppeteer查找以下内容

  • 第一个<td>
  • 中的文本
  • 计算具有类<td>的{​​{1}}元素的第二个<span>标签的数量。

现在,我可以使用this

获取所有文本(在tr和td中)
"ant-checkbox-checked"

但是这将返回所有文本数据,我不需要,而我只需要特定的数据。如何使用puppeteer深入查看特定标签?

1 个答案:

答案 0 :(得分:2)

您可以使用page.evaluate()获取第一列的文本内容,然后可以使用page.$$()来计算第二列中包含类{的span元素的数量{1}}:

ant-checkbox-checked