网页抓取时包含伪元素

时间:2021-05-31 17:03:16

标签: python web-scraping spotify pseudo-element

当我使用 Python 从网络上抓取时,我试图找到一种方法来包含或至少识别伪元素(:: 之后留下的逗号)。目前正在抓取当您在 Spotify Web 上右键单击歌曲并选择“显示信用”时出现的框。

The Credit box that appears for a song, note how the commas are not included in the highlighted text

例如,当我从这个框中刮取文本时,它会为我提供没有分隔的表演者姓名。我已经使用常规正则表达式解决了这个问题,但由于创意艺术家的名字不一致,迭代超过 500 首歌曲是不可行的。我正在使用 Selenium,但没有找到任何关于尝试我想做的事情的文档,这同样适用于 beautifulsoup

伪元素::after出现在下面的html中,我希望有一种方法可以包含或识别它。

print(element.text)

浅 执行者 布拉德利·库珀Lady Gaga

<span class="_98a581f28c32199c51c813798c3414ae-scss f3fc214b257ae2f1d43d4c594a94497f-scss" as="span">
Bradley Cooper 
::after 
</span>

0 个答案:

没有答案