Nokogiri XML到节点

时间:2013-01-13 17:22:27

标签: html ruby nokogiri

我正在阅读Nokogiri的本地HTML文档,如下所示:

f = File.open(local_xml)
@doc = Nokogiri::XML(f)
f.close

@doc包含一个Nokogiri XML对象,我可以使用at_css进行解析。

我想用Nokogiri的XML::Node修改它,我绝对卡住了。如何使用此Nokogiri XML文档并使用节点方法使用它?

例如:

@doc.at_css('rates tr').add_next_sibling(element)

返回:

undefined method `add_next_sibling' for nil:NilClass (NoMethodError)

尽管@doc.classNokogiri::XML::Document

为了完整性,这是我正在尝试编辑的标记。

<html>
<head>
<title>Exchange Rates</title>
    <link rel="stylesheet" href="style.css">
</head>
<body>
    <table class="rates">
        <tr>
            <td class="up"><div></div></td>
            <td class="date">Saturday, Jan 12</td>
            <td class="rate up">3.83</td>
        </tr>
        <tr>
            <td class="up"><div></div></td>
            <td class="date">Friday, Jan 11</td>
            <td class="rate up">3.70</td>
        </tr>
        <tr>
            <td class="down"><div></div></td>
            <td class="date">Thursday, Jan 10</td>
            <td class="rate down">3.68</td>
        </tr>
        <tr>
            <td class="down"><div></div></td>
            <td class="date">Wedensday, Jan 9</td>
            <td class="rate down">3.70</td>
        </tr>
        <tr>
            <td class="up"><div></div></td>
            <td class="date">Tuesday, Jan 8</td>
            <td class="rate up">3.66</td>
        </tr>
    </table>
</body>
</html>

2 个答案:

答案 0 :(得分:3)

尝试加载为HTML而不是XML Nokogiri::HTML(f)

没有详细了解Nokogiri如何工作,让我们说XML没有css对吗?所以方法at_css没有意义(也许我不知道)。所以它应该像Html一样加载。

更新

注意到一件事。你想要at_css('.rates tr') at_css('rates tr')的内心,因为这就是你在css中选择一个类的方法。也许它现在适用于XML。

答案 1 :(得分:2)

这是一个如何做你想做的事情的例子。从包含您要解析的HTML的缩短版本的f开始:

require 'nokogiri'

f = '
<html>
<head>
<title>Exchange Rates</title>
    <link rel="stylesheet" href="style.css">
</head>
<body>
    <table class="rates">
        <tr>
            <td class="up"><div></div></td>
            <td class="date">Saturday, Jan 12</td>
            <td class="rate up">3.83</td>
        </tr>
    </table>
</body>
</html>
'

doc = Nokogiri::HTML(f)
doc.at('.rates tr').add_next_sibling('<p>foobar</p>')

puts doc.to_html

您的代码错误地尝试查找class="rates"的{​​{1}}参数。在CSS中我们使用<table>。使用CSS执行此操作的另一种方法是.rates

您的示例未定义您尝试添加到HTML的节点,因此我添加了table[class="rates"]。 Nokogiri将允许您从头开始构建节点并附加它,或使用标记并添加它,或者您可以从HTML中的一个位置找到一个节点,将其删除,然后将其插入其他位置。

该代码输出:

<p>foobar</p>

没有必要使用<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>Exchange Rates</title> <link rel="stylesheet" href="style.css"> </head> <body> <table class="rates"> <tr> <td class="up"><div></div></td> <td class="date">Saturday, Jan 12</td> <td class="rate up">3.83</td> </tr> <p>foobar</p> </table> </body> </html> at_css代替at_xpath。 Nokogiri感知您正在使用的访问器类型并处理它。使用atxpath代替css也是如此。此外,search等同于at,因此它会找到匹配节点的第一个匹配项。