Question

我在自己的nodejs项目中使用cheerio库作为刮板。我想解析以下结构：

<li class="sub menu-category-main">
  <p>
    <span class="price">$16.00</span>
    ZESTAW DNIA + ZUPA								
  </p>
</li>
<li class=" ">
  <p>
    <span class="price">$12.00</span>
    <img class="allergens" title="Vegerarian" src="/new_site/img/vegetarian_.png">
    NALEŚNIKI AMERYKAŃSKIE Z SOSEM OWOCOWYM
    <br>
    american pancakes with fruit sauce
  </p>
</li>
<li class=" ">
  <p>
    <span class="price">$11.00</span>
    <img class="allergens" title="lactose free" src="/new_site/img/lactose_.png">
    <img class="allergens" title="gluten free" src="/new_site/img/gluten_.png">
    <img class="allergens" title="Vegerarian" src="/new_site/img/vegetarian_.png">
    LECZO WEGETARIAŃSKIE
    <br>
    vegetables lecho
  </p>
</li>

如何解析此HTML，以便获得价格，名称和图像列表？最后，我想构建一个JSON对象以重用数据（我知道如何构建JSON，只是在HTML上方解析时遇到问题）。

您会注意到有英文和波兰文名称。我对波兰语中的琴弦很感兴趣。另外请注意，该文档的结构非常不规则（不一致）。

我还想补充一点，使“ p”的.text（）不能给我我想要的结果。

我应该如何解析Cheerio中的复杂元素

0 个答案: