如何在Ruby中按名称删除某些HTML标记?
例如:
string = "<!DOCTYPE html><html><body><h1>My First Heading</h1><p>My first paragraph.</p></body></html>"
string.magic_method("h1") #=> "<!DOCTYPE html><html><body><p>My first paragraph.</p></body></html>"
我写了一些正则表达式,但想知道是否有一个库或本机方法可以做同样的事情。
答案 0 :(得分:5)
使用Nokogiri:
require 'nokogiri'
doc = Nokogiri::HTML <<-_HTML_
<!DOCTYPE html><html><body><h1>My First Heading</h1><p>My first paragraph.</p></body></html>
_HTML_
doc.at('h1')
# => #(Element:0x4d2f006 {
# name = "h1",
# children = [ #(Text "My First Heading")]
# })
doc.at('h1').unlink
puts doc.to_html
# >> <!DOCTYPE html>
# >> <html><body><p>My first paragraph.</p></body></html>
答案 1 :(得分:2)
使用gem nokogiri
。它有一些很好的方法来处理HTML和XML,包括删除标签的方法,如下所示:How do I remove a node with Nokogiri?