使用Ruby从HTML中提取片段?

时间:2010-08-04 08:51:53

标签: html ruby text-processing textile code-snippets

我需要显示HTML文本的前100个字符,这意味着,我必须选择 not 标签的前100个字符,然后关闭所有打开的标签,留下平衡的HTML。有没有可以做到的图书馆?还是有任何无关紧要的方法可以解决这个问题?

该文本最初是用Textile编写的,它可以并且确实包含HTML,所以我认为我最好先将它转换为完全HTML然后再处理,但如果有什么东西可以在纺织层面做,我也很开心

2 个答案:

答案 0 :(得分:1)

这就是我将获得前100个文本字符的方式。您可能需要根据需要进行修改

require 'nokogiri'

def get_first_100_chars
 doc = Nokogiri::Slop(open 'html_file.html')
 text = doc.html.body.text
 return text[0..99]
end

不确定平衡html。如果我发现,会发布。

答案 1 :(得分:0)

查看Nokogiri