Question

我有一个列表如下。我从抓取中获得了清单，我需要摆脱那些<h5>和</h5>。有没有办法做到这一点，或者在刮削过程中可以做到？

[[<h5>Tomato Street Grill</h5>, <h5>Go Live</h5>, <h5>Bistro</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>], [<h5>Tomato Street Grill</h5>, <h5>Go Live</h5>, <h5>Bistro</h5>, <h5>Starch Bar</h5>, <h5>Saucey</h5>, <h5>Pacific Fusion</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>], [<h5>Tomato Street Grill</h5>, <h5>Bistro</h5>, <h5>Go Live</h5>, <h5>Saucey</h5>, <h5>Pacific Fusion</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>], [<h5>Tomato Street Grill</h5>, <h5>Go Live</h5>, <h5>Saucey</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>]]

Ps：我尝试做类似find_next_siblings('h5').text和python的操作，而.text是列表之前的操作，因此我无法以这种方式提取文本。

Pps：每个子列表的类型为bs4.element.ResultSet，每个最小项的类型为bs4.element.Tag。

Answer 1

for sublist in main_list:
    for ele in sublist:
        ele = ele.get_text()
        ele.replace('<h5>', '')
        ele.replace('</h5>', '')

这将遍历主列表，然后迭代子列表，然后从子列表中删除不需要的h5标签。希望这会有所帮助。

编辑，因为这些都是漂亮的汤对象，所以您需要调用text方法，有几种方法可以做到这一点。

从列表内列表中的项目中删除字符

1 个答案: