从字符串中删除html标签,并保持文本openxml友好?

时间:2015-03-22 17:26:13

标签: c# html .net ms-word openxml

我正在将文本插入到打开的XML文档中。我检索并插入到文档中的文本包含HTML格式,即< p>一些文字< / p> < p>更多文字< / p>因此,单词中插入的文本将其作为文本。使用HTML的文本是否可以转换为开放的XML文档可以理解的内容?

1 个答案:

答案 0 :(得分:1)

新答案:

在codeplex上实际上有一个项目可以完全满足您的需求。

这里看项目:
Html to OpenXml on codeplex

然而;如果格式(标题/段落等)不重要,您可以完全剥离HTML标签。

这是一个如何做到这一点的教程:
C# Remove HTML Tags


旧答案(OP说他的问题有点奇怪,我误解了)

您需要做的是以某种方式编码HTML代码;你可以使用base64或任何漂浮你的船。 “简单”HTML编码可能是这里最好的做法。

这样HTML就不会破坏您的XML。

ASP.NET支持这一点;但您可以通过导入所需的命名空间在任何应用程序中执行此操作。

这是一个例子。 HtmlEncode from Class Library