使用Nokogiri / xpath从一个巨大的HTML文件中提取一些文本

时间:2012-02-20 01:57:40

标签: html regex url scrape

我正在抓取一个网站,并试图从HTML中提取某些元素。在我正在抓取的网站中,有脚本标记,其中包含大量信息,但是,我感兴趣的是这些标记中有一部分。该行基本上看起来像:

'image':'http://ut5.example.com/t/231/3_b_643435.jpg',

上面和下面都有一些东西。现在,除了显然存储图像的域和一些子文件夹之外,每个页面源 不同。

我如何查看此特定行的来源,并仅剪切URL?我需要使用正则表达式,因为URL是动态的。

“gsub”方法与我想要搜索的内容类似,具有使用/ regex /的能力。但是,我不想替换任何东西,我只想在源代码中使用/ regex /找到该URL并复制它。

1 个答案:

答案 0 :(得分:1)

根据你的评论,这就是你要找的东西

var regex = /http.+/;

示例http://jsfiddle.net/Km9ZB/