我在.NET中使用Fizzler.Systems.HtmlAgilityPack;
来使用CSS选择器获取元素。现在我将我的项目移植到.NET核心,并且似乎不是
Fizzler虽然HtmlAgilityPack.NetCore可用。我如何使用CSS选择器?
答案 0 :(得分:1)
只需将automated-ref-counting NuGet包引用添加到项目中即可。
以下是如何使用QuerySelectorAll()
方法的示例。
HtmlWeb web = new HtmlWeb();
HtmlDocument doc = web.Load(url);
IList<HtmlNode> nodes = doc.QuerySelectorAll("div .my-class[data-attr=123] > ul li");
HtmlNode node = nodes[0].QuerySelector("p.with-this-class span[data-myattr]");
答案 1 :(得分:0)
我使用了HtmlAgilitypack,如下所示:
string url = "your URL";
HtmlWeb web = new HtmlWeb();
web.PreRequest = delegate (HttpWebRequest webRequest)
{
webRequest.Timeout = 15000;
return true;
};
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
List<HtmlNode> findclasses = doc.DocumentNode.Descendants("div").Where(d =>
d.Attributes.Contains("class") && d.Attributes["class"].Value.Contains("YourClassName")
).ToList();
答案 2 :(得分:0)
对于.NET中的CSS选择器,我总是使用ScrapySharp(虽然它不支持伪元素)。
将ScrapySharp.Extensions
添加到您的using语句中,您只需在任何HtmlNode对象中调用CssSelect
,例如DocumentNode
。
using ScrapySharp.Extensions;
using HtmlAgilityPack;
namespace ConsoleLab
{
internal class Program
{
private static void Main(string[] args)
{
HtmlWeb web = new HtmlWeb();
var document = web.Load("your url");
//css class selector example
var res1 = document.DocumentNode.CssSelect(".yourClass");
//css id selector example
var res2 = document.DocumentNode.CssSelect("#yourID");
}
}
}
另一种解决方案是使用AngleSharp - 这是一个用于解析和css选择的一体化软件包(内置css选择器)。我使用这些已经有一段时间了,但如果我没有错误,angle sharp会提供更好的css选择器支持。
Anglesharp
用法示例:
//parsing a http-served url (asynchronous, used .Result here for simplification, but this defeats the asynchronoability of the code)
IBrowsingContext bc = BrowsingContext.New();
Task<IDocument> doc = bc.OpenAsync("yourAddress");
//querying a single selector match
IElement element1 = doc.Result.QuerySelector(".yourSelector");
//querying multiple selector matches
IEnumerable<IElement> elements1 = doc.Result.QuerySelectorAll(".yourSelectors");
//parsing a physical html document, non-network dependent
HtmlParser parser = new HtmlParser();
IHtmlDocument doc2 = parser.Parse("htmlFile");
IElement element2 = doc.Result.QuerySelector(".yourSelector");
IEnumerable<IElement> elements2 = doc.Result.QuerySelectorAll(".yourSelectors");