当我使用 Python 从网络上抓取时,我试图找到一种方法来包含或至少识别伪元素(:: 之后留下的逗号)。目前正在抓取当您在 Spotify Web 上右键单击歌曲并选择“显示信用”时出现的框。
The Credit box that appears for a song, note how the commas are not included in the highlighted text
例如,当我从这个框中刮取文本时,它会为我提供没有分隔的表演者姓名。我已经使用常规正则表达式解决了这个问题,但由于创意艺术家的名字不一致,迭代超过 500 首歌曲是不可行的。我正在使用 Selenium,但没有找到任何关于尝试我想做的事情的文档,这同样适用于 beautifulsoup。
伪元素::after出现在下面的html中,我希望有一种方法可以包含或识别它。
print(element.text)
浅 执行者 布拉德利·库珀Lady Gaga
<span class="_98a581f28c32199c51c813798c3414ae-scss f3fc214b257ae2f1d43d4c594a94497f-scss" as="span">
Bradley Cooper
::after
</span>