从列表内列表中的项目中删除字符

时间:2018-10-10 20:58:36

标签: python list replace

我有一个列表如下。我从抓取中获得了清单,我需要摆脱那些<h5></h5>。有没有办法做到这一点,或者在刮削过程中可以做到?

[[<h5>Tomato Street Grill</h5>, <h5>Go Live</h5>, <h5>Bistro</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>], [<h5>Tomato Street Grill</h5>, <h5>Go Live</h5>, <h5>Bistro</h5>, <h5>Starch Bar</h5>, <h5>Saucey</h5>, <h5>Pacific Fusion</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>], [<h5>Tomato Street Grill</h5>, <h5>Bistro</h5>, <h5>Go Live</h5>, <h5>Saucey</h5>, <h5>Pacific Fusion</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>], [<h5>Tomato Street Grill</h5>, <h5>Go Live</h5>, <h5>Saucey</h5>, <h5>Fresh Inspirations</h5>, <h5>Harvest Bakery</h5>]]

Ps:我尝试做类似find_next_siblings('h5').text和python的操作,而.text是列表之前的操作,因此我无法以这种方式提取文本。

Pps:每个子列表的类型为bs4.element.ResultSet,每个最小项的类型为bs4.element.Tag。

1 个答案:

答案 0 :(得分:0)

for sublist in main_list:
    for ele in sublist:
        ele = ele.get_text()
        ele.replace('<h5>', '')
        ele.replace('</h5>', '')

这将遍历主列表,然后迭代子列表,然后从子列表中删除不需要的h5标签。希望这会有所帮助。

编辑,因为这些都是漂亮的汤对象,所以您需要调用text方法,有几种方法可以做到这一点。