我在SSIS中运行时使用下面的C#脚本从描述列中删除HTML标记。我试图在下面的字符串htmlTagPattern中添加以下unicode &#58 ,但我无法让它工作。
感谢任何帮助。
public class ScriptMain : UserComponent
{
public override void Input0_ProcessInputRow(Input0Buffer Row)
{
Row.Message = RemoveHtml(Row.Message);
}
public String RemoveHtml(String message)
{
String htmlTagPattern = "<(.|\n)+?>";
Regex objRegExp = new Regex(htmlTagPattern);
message = objRegExp.Replace(message, String.Empty);
return message;
}
}
答案 0 :(得分:0)
有很多方法可以将HTML转换为纯文本:
您可以从提供的样本中获取代码:
您可以从以下链接下载HTMLAgilitypack:
如果您使用.Net framework 4或更高版本,您可以从System.Net
库中获益,该库包含从HTML获取纯文本的方法:
System.Net.HttpUtility.HtmlDecode(Row.Column)
参考:
您可以按照其中一个链接获取更多详细信息: