删除没有正则表达式的文本中的html代码

时间:2010-05-31 07:31:25

标签: html

我正在从互联网上提取索引。 我想删除其中一些出现的html代码。我已经使用正则表达式来看待我所看到的,但我想找到一些方法来自动删除所有这些,因为我不知道我是否在我的feed中看到了所有可能的html代码。 有可能吗? 我添加了一个我想删除的示例: /0831/oly_g_liukin_576.jpg“height =”49“width =”41“/>北京 - 8月15日:Nastia Liukin ...

2 个答案:

答案 0 :(得分:2)

使用Jsoup实用程序,非常好用于从字符串中删除HTML代码

http://jsoup.org/cookbook/cleaning-html/whitelist-sanitizer

答案 1 :(得分:0)

在C#中它可能看起来像(它会删除HTML标签):

public static String RemoveHtmlTagsFromString(String source)
{
   char[] array = new char[source.Length];
   int arrayIndex = 0;
   bool inside = false;

   foreach (char let in source)
   {
       if (let == '<')
       {
           inside = true;
           continue;
       }

       if (let == '>')
       {
           inside = false;
           continue;
       }

       if (!inside)
       {
           array[arrayIndex] = let;
           arrayIndex++;
       }
   }
   return new string(array, 0, arrayIndex);
}