我正在抓取一个网站,并试图从HTML中提取某些元素。在我正在抓取的网站中,有脚本标记,其中包含大量信息,但是,我感兴趣的是这些标记中有一部分。该行基本上看起来像:
'image':'http://ut5.example.com/t/231/3_b_643435.jpg',
上面和下面都有一些东西。现在,除了显然存储图像的域和一些子文件夹之外,每个页面源 不同。
我如何查看此特定行的来源,并仅剪切URL?我需要使用正则表达式,因为URL是动态的。
“gsub”方法与我想要搜索的内容类似,具有使用/ regex /的能力。但是,我不想替换任何东西,我只想在源代码中使用/ regex /找到该URL并复制它。