仅从html文本文件中提取标签

时间:2019-03-25 19:53:21

标签: c# html

我正在研究一种隐写术方法,该方法使用html标签隐藏文本。  
例如以下标签:<heEAd>我必须提取标签中的每个字符,然后
分析字母的大小写(如果为大写),然后将位设置为1,否则为0 ;我还想检查是否看到匹配的结束 / head 标记的结尾


这是代码:

WebClient client = new WebClient();
String htmlCode = client.DownloadString("url");
String Tags = "";

    for(int i = 0; i < htmlCode.Length; i++){
     if(htmlCode[i] ='<'){
      if(htmlCode[i] = '>')
       continue;
      else{
      Tags += htmlCode[i];
         }
      }

}

这种逻辑很糟糕,但是我如何使用IndexOflastIndexOf来获得想要的结果
substring我试图使用它,但是由于我对c#缺乏了解

1 个答案:

答案 0 :(得分:0)

我认为您需要使用REGEX。

我尝试用Substring做一次,而且我做得很多。我后来决定使用正则表达式,它比第一个更简单。

var regex = new Regex(@"(?<=<head>).*(?=</head>)");
return regex.Matches(strInput);