从html源代码中提取文本/数据

时间:2013-06-05 04:30:19

标签: html

我正在尝试提取嵌套在html代码<span class="code"></span>之间的一段文字。我的想法是,我需要存储在这些之间的信息。

如何自动从网页中提取该信息?

1 个答案:

答案 0 :(得分:0)

我会假设你在Ruby或Javascript中这样做,因为你没有指定,那些是我知道如何最好地完成它的语言。

在Ruby中,您首先要通过

安装Nokogiri gem
gem install nokogiri

你的代码看起来像这样:

require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open('http://your-url.example.com/foo/bar))
value = doc.css('span.code');

p value

对于Javascript,您可以使用jQuery(不确定如何在没有它的情况下执行此操作)。

var value = $('span.code').value;