获取未包含在标记中的文本

时间:2011-11-26 07:34:04

标签: vb.net html-agility-pack

我想提取没有标签的文字。

HTML看起来像这样:

<a href="asdsd.com">hello</a>

I want this text

<strong>not this</strong>

我如何获得该文字?

我想我可以将其读成字符串,然后搜索<a><strong>标记中的部分,但不知道如何编写它。

P.S。我已经彻底检查过,没有<div><b><p>或任何其他标签。它就像那样挂起。

1 个答案:

答案 0 :(得分:0)

您可以过滤包含兄弟的文本节点。如果他们有上一个或下一个,那么你知道它是你想要的节点。

Dim query = doc.DocumentNode                           _
    .DescendantNodes                                   _
    .OfType(Of HtmlTextNode)                           _
    .Where(Function(t) t.PreviousSibling IsNot Nothing _
                OrElse t.NextSibling IsNot Nothing)