如何从html字符串中删除这些类型的“标记”?

时间:2017-03-23 02:30:31

标签: c# html

我甚至不确定标签是否是正确的词。

但我在谈论这些元素:</ul> <ul> <li>

例如,我将使用什么来摆脱此字符串中的这些类型的字符:<i>A lethal crawfish with extremely dangerous claws.</i>

编辑:我不是webscraping,而是访问仍然包含这些元素的sqlite数据库,我想在输出之前删除它们。

2 个答案:

答案 0 :(得分:0)

听起来你需要一个html清洁剂。我猜你正试图清理用户输入的HTML ......他们可能会输入比<ul>更糟糕的东西。消毒剂将帮助您减轻这种可能性。

你可以谷歌为他们或看看nuget,只是通过谷歌找到这个:https://github.com/mganss/HtmlSanitizer

答案 1 :(得分:0)

&#13;
&#13;
Original String: <h4>Hello   World</h4>
Replacement String: Hello   World
&#13;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text.RegularExpressions;

namespace Rextester
{
    public class Program
    {
        public static void Main(string[] args)
        {
            //Your code goes here
         string input = "<h4>Hello   World</h4>";
         string pattern = "<[^>]*>";
         string replacement = "";
         Regex rgx = new Regex(pattern);
         string result = rgx.Replace(input, replacement);

         Console.WriteLine("Original String: {0}", input);
         Console.WriteLine("Replacement String: {0}", result);    
         Console.ReadKey();
        }
    }
}
&#13;
&#13;
&#13;