Question

当我使用 Python 从网络上抓取时，我试图找到一种方法来包含或至少识别伪元素（:: 之后留下的逗号）。目前正在抓取当您在 Spotify Web 上右键单击歌曲并选择“显示信用”时出现的框。

The Credit box that appears for a song, note how the commas are not included in the highlighted text

例如，当我从这个框中刮取文本时，它会为我提供没有分隔的表演者姓名。我已经使用常规正则表达式解决了这个问题，但由于创意艺术家的名字不一致，迭代超过 500 首歌曲是不可行的。我正在使用 Selenium，但没有找到任何关于尝试我想做的事情的文档，这同样适用于 beautifulsoup。

伪元素::after出现在下面的html中，我希望有一种方法可以包含或识别它。

print(element.text)

浅执行者布拉德利·库珀Lady Gaga

<span class="_98a581f28c32199c51c813798c3414ae-scss f3fc214b257ae2f1d43d4c594a94497f-scss" as="span">
Bradley Cooper 
::after 
</span>

网页抓取时包含伪元素

0 个答案: