使用Nokogiri排除HTML标记

时间:2015-03-30 09:12:14

标签: html ruby nokogiri

我试图获取TD标签中的所有文本,除了<strong>标签内的内容(可能有任意数量)。

在这个例子中,我希望得到:&#34; graavis ● diakriitik ()↝" and "急性重音符号&#34;:

<tr class="level2">
    <td> 
        <strong> grave accent </strong> 
         <strong> (=backquote character) </strong>
         graavis ● diakriitik (`) ↝ 
         <a href="?word=sv82">acute accent</a>
    </td>
</tr>

我试图使用下面的代码,但它不起作用:

desc = page.css('tr td:not(strong)').text

1 个答案:

答案 0 :(得分:1)

考虑:

page.search("strong").remove
page.css(".level2 > td").text.strip