如何在HTML标记中获取文本?

时间:2013-04-03 10:04:35

标签: ruby nokogiri

我想在某个HTML标记内获取文本。它看起来像:

<div id="data123">data1: value1<br>data2: value2<br> data3: value</div>

我的代码如下:

html_page = Nokogiri::HTML open 'my_url'
who_is_raw = html_page.css('div#data123')[0] #.text

我得到<div>标记中没有<br>标记的文字,或者整个<div>内有所有<br>的文字。但是,我只希望其中包含<div>代码和<br>代码中的文字。

我该怎么做?

1 个答案:

答案 0 :(得分:3)

尝试使用inner_html

who_is_raw = html_page.css('div#data123')[0].inner_html