将unicode添加到字符串html标记模式

时间:2017-12-26 17:29:25

标签: c# html sql-server ssis etl

我在SSIS中运行时使用下面的C#脚本从描述列中删除HTML标记。我试图在下面的字符串htmlTagPattern中添加以下unicode &#58 ,但我无法让它工作。

感谢任何帮助。

public class ScriptMain : UserComponent
{
    public override void Input0_ProcessInputRow(Input0Buffer Row)
    {    
         Row.Message = RemoveHtml(Row.Message);
    }
   public String RemoveHtml(String message)
   {
       String htmlTagPattern = "<(.|\n)+?>";
        Regex objRegExp = new Regex(htmlTagPattern);
        message = objRegExp.Replace(message, String.Empty);
        return message;
    }
}

1 个答案:

答案 0 :(得分:0)

有很多方法可以将HTML转换为纯文本:

使用HTMLAgilityPack库

您可以从提供的样本中获取代码:

您可以从以下链接下载HTMLAgilitypack:

使用System.Net

如果您使用.Net framework 4或更高版本,您可以从System.Net库中获益,该库包含从HTML获取纯文本的方法:

System.Net.HttpUtility.HtmlDecode(Row.Column)

参考:

使用正则表达式

您可以按照其中一个链接获取更多详细信息: