我有一个列表如下。我从抓取中获得了清单,我需要摆脱那些<h5>
和</h5>
。有没有办法做到这一点,或者在刮削过程中可以做到?
[[<h5>Tomato Street Grill</h5>, <h5>Go Live</h5>, <h5>Bistro</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>], [<h5>Tomato Street Grill</h5>, <h5>Go Live</h5>, <h5>Bistro</h5>, <h5>Starch Bar</h5>, <h5>Saucey</h5>, <h5>Pacific Fusion</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>], [<h5>Tomato Street Grill</h5>, <h5>Bistro</h5>, <h5>Go Live</h5>, <h5>Saucey</h5>, <h5>Pacific Fusion</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>], [<h5>Tomato Street Grill</h5>, <h5>Go Live</h5>, <h5>Saucey</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>]]
Ps:我尝试做类似find_next_siblings('h5').text
和python的操作,而.text是列表之前的操作,因此我无法以这种方式提取文本。
Pps:每个子列表的类型为bs4.element.ResultSet,每个最小项的类型为bs4.element.Tag。
答案 0 :(得分:0)
for sublist in main_list:
for ele in sublist:
ele = ele.get_text()
ele.replace('<h5>', '')
ele.replace('</h5>', '')
这将遍历主列表,然后迭代子列表,然后从子列表中删除不需要的h5标签。希望这会有所帮助。
编辑,因为这些都是漂亮的汤对象,所以您需要调用text方法,有几种方法可以做到这一点。