使用nokogiri,
doc = Nokogiri::HTML(your_html)
doc.xpath("//text()").to_s
这样做,但是,它将所有内容都放在一个平面文本中。
我需要通过html标签包含每个文本
<b> text</b>
<h1>text3</b>
并将它们放入数组中。 [“text”,“text3”]
建议的操作是什么?
我想到了doc.xpath( “*”)。文本
但不知道如何遍历这一切。
答案 0 :(得分:2)
doc = Nokogiri::HTML(your_html)
doc.xpath("//text()").to_a