如何最好地使用rails来清理丰富的html?

时间:2009-07-21 17:12:04

标签: ruby-on-rails sanitize richtext

我正在寻找有关如何在Web应用中清理提交的html的建议,以便将来可以重新显示样式或未封闭的标签破坏应用程序的布局。

在我的应用程序上,用户使用YUI Rich文本编辑器提交了丰富的HTML,默认情况下会运行一些正则表达式来清理输入,我还调用[filter_MSWord][1]来捕获从中发送的任何垃圾。办公室

在后端,我正在运行ruby-tidy以在显示为评论之前清理html,但有时粘贴的HTML仍会影响我正在使用的应用程序的布局 - 我该如何保护对此?

FWIW这里是我正在使用的消毒剂设置 -

module HTMLSanitizer


  def tidy_html(input)

    cleaned_html = Tidy.open(:show_warnings=>false) do |tidy|
      # don’t output body and html tags
      tidy.options.show_body_only = true 
      # output xhtml
      tidy.options.output_html = true
      # don’t write newlines all over the place
      tidy.options.wrap = 0
      # use utf8 to play nice with rails
      tidy.options.char_encoding = 'utf8'
      xml = tidy.clean(input)
      xml
    end
  end

end

我还有什么选择?

2 个答案:

答案 0 :(得分:8)

我个人使用消毒宝石。

require 'sanitize'
op = Sanitize.clean("<html><body>wow!</body></hhhh>") # Notice the incorrect HTML. It still outputs "wow!"

答案 1 :(得分:2)

我使用ActionView

提供的清理助手

Module ActionView::Helpers::SanitizeHelper