我正在抓取该网站。 http://www.vgchartz.com/games/games.php?page=1&results=500。没有唯一的标签,但是background-img看起来可以很好地识别行。以下是前两行的开始标签。
<tr style="background-image:url(../imgs/chartBar_alt_large.gif); height:70px">
<tr style="background-image:url(../imgs/chartBar_large.gif); height:70px">
backround-img交替显示。可以将其用于抓取,还是我需要深入HTML树?
在同一标记内的这些标记之上有一些标记。 ,它没有任何可识别的元数据,但保存它的div却有-id =“ generalBody”。