用嵌入式解析<和>

时间:2015-02-24 10:46:57

标签: html ruby nokogiri

我的HTML内容在HTML代码中包含<>%等HTML实体。

html_text = '<td class="web" width="56" valign="middle" style="color:#333333; font-family:Arial, Helvetica, sans-serif; font-size:12px; line-height:18px; padding-top:38px; padding-bottom:40px;"><img alt="<%= ab("###/a/j/img1_alt_text=Hey") %>" src="<%%= @dropbox_path %>/path/to/image/image.png" width="42" height="41" border="0" hspace="0" vspace="0" style="display:block; vertical-align:top;">String1</td>'

当我使用此HTML内容制作HTML doc时(以字符串形式) 使用

html_doc = Nokogiri::HTML(html_text,nil, "UTF-8")

我尝试遍历它,要求给我一个文本节点,

html_doc.traverse do | x |

x.text?

temp = x.content

放临时

我实际上想在这里'String1'作为输出,但它给了我:

" src="/path/to/image/image.png" width="42" height="41" border="0" hspace="0" vspace="0" style="display:block; vertical-align:top;">

1 个答案:

答案 0 :(得分:1)

尝试:

page.css('td')[0].text

请参阅&#34; Parsing HTML with Nokogiri&#34;了解更多信息。