我正在使用AngleSharp解析网站内容,我遇到了匿名阻止的问题。
参见示例代码:
var parser = new HtmlParser();
var document = parser.Parse(@"<body>
<div class='product'>
<a href='#'><img src='img1.jpg' alt=''></a>
Hello, world
<div class='comments-likes'>1</div>
</div>
<div class='product'>
<a href='#'><img src='img2.jpg' alt=''></a>
Yet another helloworld
<div class='comments-likes'>25</div>
</div>
<body>");
var products = document.QuerySelectorAll("div.product");
foreach (var product in products)
{
var productTitle = product.Text();
productTitle.Dump();
}
因此,productTitle包含来自div.comments-likes的数字,输出为:
你好,世界1
另一个helloworld 25
我尝试了类似product.FirstElementChild.NextElementSibling.Text();
的内容,但是链接元素的下一个兄弟是div.comments-likes,而不是匿名阻止。它显示:
1
25
因此,跳过匿名块。 :(
我发现最好的解决方法是删除所有阻止块,例如:
product.QuerySelector(".comments-likes").Remove();
var productTitle = product.Text().Trim();
解析匿名块中的文本是更好的方法吗?
答案 0 :(得分:2)
文本被建模为center-block
,它是元素,注释节点,处理指令等旁边的类型的节点。这就是TextNode
你的原因尝试没有在结果中包含文本,因为它只打算返回元素,顾名思义。
您可以通过浏览NextElementSibling
div
然后按div
进行过滤,直接找到位于产品ChildNodes
内的文字节点,例如:< / p>
NodeType
<强> dotnetfiddle demo
强>
请注意,元素之间的换行也是文本节点,因此我们需要在上面的演示中对这些换行进行过滤。