用nokogiri保持间距剥离html

时间:2013-11-22 21:10:14

标签: html ruby

好的我要做的是剥离我的html文件的内容,现在是本地然后把它放到一个文件中。那部分可以工作,但是当我这样做时它取出了所有的间距,例如我有一个含有内容的H1标签和一个P标签,使用下面的代码我运行它,剥离的东西放在文件中但它放在一个单行,我想要分成多行。

require "rubygems"
require "nokogiri"

my_html = open("./my_html.html")
File.open("./no_html.txt", "a+") do |file| 
 file.puts Nokogiri::HTML(my_html).text
end

1 个答案:

答案 0 :(得分:0)

如果要拆分从Nokogiri::HTML(my_html).text返回的字符串,可以使用String#scan

> "abcdefghijklmnpqrstuvwxyzfdsafadfasfadsfafdasfadfasdfasdfasdfdsf".scan(/.{5}/)
 => ["abcde", "fghij", "klmnp", "qrstu", "vwxyz", "fdsaf", "adfas", "fadsf", "afdas", "fadfa", "sdfas", "dfasd"]

如果你想美化HTML使用

 Nokogiri::HTML(my_html,&:noblanks)
正如@Mircea在评论中指出的SO帖子所指出的那样。