我希望从SQL表列中删除HTML标记,并希望智能地剥离。例如,<ol>
标记应替换为新的行字符等。因此,文本看起来就像<HTML>
标记存在时一样。只需删除标签就会影响文本的外观。任何线索都会有所帮助。
答案 0 :(得分:0)
让我想起过去的日子!
互联网数据挖掘需要它,我使用的最基本的过滤器是:如果你只有 文本而没有HTML,例如目标是记事本。
首先,删除<header>
和<script>
标记之间的所有内容
然后为每个char(9)
分隔的文本长度div 9插入标签<td>text</td>
,或者..单个标签(杂乱,但一致)
现在在每个char(10)
,<tr>
和<p>
<br><br />
最后,删除文字中<tags>
之间的所有内容。
答案 1 :(得分:0)
你是对的,Andrew T!我忘了对列表标签进行维护.. [样式]中的所有内容也可以完全删除。
请记住,这些替换技巧是过去的技巧:我们只关注标准标签,您将无法始终重建,例如MVC-5 SQL报告,因为开发人员可以更改样式,或者为表格报告更改index.cshtml。
最好从数据库中获取数据。