我在自己的nodejs项目中使用cheerio库作为刮板。我想解析以下结构:
<li class="sub menu-category-main">
<p>
<span class="price">$16.00</span>
ZESTAW DNIA + ZUPA
</p>
</li>
<li class=" ">
<p>
<span class="price">$12.00</span>
<img class="allergens" title="Vegerarian" src="/new_site/img/vegetarian_.png">
NALEŚNIKI AMERYKAŃSKIE Z SOSEM OWOCOWYM
<br>
american pancakes with fruit sauce
</p>
</li>
<li class=" ">
<p>
<span class="price">$11.00</span>
<img class="allergens" title="lactose free" src="/new_site/img/lactose_.png">
<img class="allergens" title="gluten free" src="/new_site/img/gluten_.png">
<img class="allergens" title="Vegerarian" src="/new_site/img/vegetarian_.png">
LECZO WEGETARIAŃSKIE
<br>
vegetables lecho
</p>
</li>
如何解析此HTML,以便获得价格,名称和图像列表?最后,我想构建一个JSON对象以重用数据(我知道如何构建JSON,只是在HTML上方解析时遇到问题)。
您会注意到有英文和波兰文名称。我对波兰语中的琴弦很感兴趣。另外请注意,该文档的结构非常不规则(不一致)。
我还想补充一点,使“ p”的.text()不能给我我想要的结果。