Question

如何在不使用WebBrowser的情况下从https://www.whoscored.com/Statistics的网页中提取元素的内容，例如巴黎圣日耳曼的财产？

此数据经常更新，无法从HTTP请求可以接收的源代码中访问。如果可能，我将异步访问此类数据，以加快抓取速度。据我了解，一个WebBrowser对象不能一次加载/打开多个页面。在这种情况下，则必须为每个异步进程创建一个单独的WebBrowser对象，这可能会带来很大的开销。

Answer 1

HTML页面显然是XML格式的。您需要：

 - load the page with HttpClient.
 - cut the part (including) the tags <html> </html>
 - parse it using XmlReader.

Answer 2

您应该能够轻松捕获类似这样的内容，只需对站点进行简单的httprequest。这将返回带有所有页面数据的httpResponse，然后您只需解析html即可获取所需的文本。

我可以在问题列表中看到html中的数据。

虽然可以使用.NET中的内置httprequest / response对象执行此操作，但如果使用外部工具（如HtmlAgilitypack或FizzlerEx），则比使用内置的标准对象更容易地解析数据，如果使用.NET则更容易。 C＃。

请参阅此帖子以获取有关这些选项的有用详细信息。 Get HTML code from website in C#