我仍在使用本文进行一些Web抓取实践: https://www.pastemagazine.com/articles/2018/01/the-75-best-tv-shows-on-netflix-2018.html
我想只获取每个节目的排名,并找到我认为的HTML元素:
<div class="copy entry manual-ads">
<p>
<b class="big">
"75."
<i>
<a href="https://www.netflix.com/search?q=chewing%20gum&jbv=80130911&jbp=0&jbr=0" class="ovr" target="_blank">Chewing Gum</a>
</i>
</b>
</p>
</div>
我正在使用以下代码仅获取等级编号(在本例中为“ 75”):
doc.css("b.big").text
但是,它返回排名号和演出标题。我怎样才能获得等级编号?
答案 0 :(得分:0)
使用正则表达式:
doc.css("b.big").text[/\d+/]