Question

我正在使用Selenium Web驱动程序从各个新闻站点抓取新闻评论（动态内容）。我正在与HTML标签一起评论。请看下面。现在，我要删除HTML并将文本转换为数据框以供我分析

''' [“只有20％”这是很多人的笑声。您看不到有20％的人向Sky抱怨其产品无法正常运行。，不，您看到80％的人抱怨改用Sky打包方式。这太好笑了。
在过去的几年中，人们一直在哭泣，需要将Sky替换为流媒体。
然后就发生了，这是错误的。
请大家下定决心；您要卫星播放还是流媒体播放？
流媒体播放某些东西，尤其是群众在同一时间观看同一东西的运动，就像厕所一样。它不能可靠地工作。

“

我使用下面的代码来检索评论

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome(ChromeDriverManager().install())
driver.get('https://www.bbc.co.uk/b')

html = driver.page_source
soup = BeautifulSoup(html)
comments = soup.findAll('div',{'class':'gig-comment-body'})

所有注释以及存储在注释对象中的文本。我不知道如何使用漂亮的汤来解析以上数据。请确认

如何将抓取的文字段落（新闻评论）转换为数据框？

0 个答案: