删除HTML页面中的HTML的一部分

时间:2019-01-23 16:50:26

标签: html regex vb.net substring meta-tags

我正在尝试在加载页面时删除一些带有内容的标签,以限制不发送少量标签。

我正在使用搜索字符串,它对较大的数据集没有帮助。

string startTag = "<section>"+Environment.NewLine+
"                <div id=\"nonPrintable123\">";

        var startIndex = htmlString.IndexOf(startTag);
        var html = htmlString.Substring(0, startIndex) + "</div></form>      </body></html>";

有什么办法让我可以使用Regex并用空字符串删除/替换整个div吗?

<Section> {data} </Section>中的数据 应该用空或任何其他禁止替换。

2 个答案:

答案 0 :(得分:0)

使用String.Replace过去对我有用。
https://docs.microsoft.com/en-us/dotnet/api/system.string.replace?view=netframework-4.7.2

startString &= startString.Replace("<div>HTML you want to replace</div>", "")

答案 1 :(得分:0)

我使用vb.net处理了以下代码:

Private Sub removehtml()
    Dim str As String = " <div id=nonPrintable123> <!--#  Start --> hjhjhty iuh  hwjkednjkb dvhv xcaisfdchascjk bkasj df kh <!--End #-->"
    Dim sindex As Integer = 0
    Dim eindex As Integer = 0
    sindex = str.IndexOf("<!--#")
    eindex = str.IndexOf("#-->")
    Dim substr As String = String.Empty
    substr = str.Substring(sindex, (eindex - sindex) + 4)
    str = str.Replace(substr, String.Empty)
End Sub

通过这种方式,我从给定的字符串中删除了所有不需要的数据