我正在阅读我认为只是.html文件中的基本文本,我想在asp.net网页上显示它。
我放了一些css格式,但似乎没有完全奏效。由于问题在于我看到我认为原始文本结果是:
我到底了<SPAN style="FONT-SIZE: 16pt">
<P style="TEXT-ALIGN: center; MARGIN: 0in 0in 0pt" class=MsoNormal
align=center><SPAN style="FONT-SIZE: 16pt"><?xml:namespace prefix = o ns =
"urn:schemas- microsoft-com:office:office" /><o:p></o:p></SPAN></P><SPAN
style="FONT-SIZE: 16pt"><o:p>
<P style="TEXT-ALIGN: center; MARGIN: 0in 0in 0pt" class=MsoNormal align=center><SPAN
style="FONT-SIZE: 16pt">General Manager’s Corner<o:p></o:p></SPAN></P>
<P style="TEXT-ALIGN: center; MARGIN: 0in 0in 0pt" class=MsoNormal align=center><SPAN
style="FONT-SIZE: 16pt">July 2009<o:p></o:p></SPAN></P>
<P style="TEXT-ALIGN: center; MARGIN: 0in 0in 0pt" class=MsoNormal align=center><SPAN
style="FONT-SIZE: 16pt"><o:p> </o:p></SPAN></P>
这看起来像来自微软的词或某些内联格式。
无论如何我可以:
答案 0 :(得分:1)
有一个用于剥离由名为WordOff的单词生成的HTML的小API。也许你可以使用那个?
答案 1 :(得分:0)
内联格式更具体,所以我很确定它会在每次CSS时都胜出。
至于删除实际的内联格式本身,快速谷歌出现了一些选项,你可以使用一些免费的一些
答案 2 :(得分:0)
您可以使用!important 黑客来覆盖CSS中的内嵌样式。
至于删除内联格式,您可以尝试使用Google搜索paste from word或提出自己的正则表达式来丢弃标记名后面的所有内容。
答案 3 :(得分:0)
您可以应用几个简单的正则表达式模式来删除格式化:
对于风格:
style="[^"]*"
对于课程和对齐:
(align|class)=[A-Za-z]*
要使用表达式,您可以使用此在线工具:http://www.regextester.com/
答案 4 :(得分:0)
我只是手工编写了一些找到并替换的东西。花了太多时间尝试所有几乎都能完成工作的第三方工具。