获取没有WebBrowser的HTML元素的内容?

时间:2019-01-22 00:22:19

标签: c#

如何在不使用WebBrowser的情况下从https://www.whoscored.com/Statistics的网页中提取元素的内容,例如巴黎圣日耳曼的财产?

此数据经常更新,无法从HTTP请求可以接收的源代码中访问。如果可能,我将异步访问此类数据,以加快抓取速度。据我了解,一个WebBrowser对象不能一次加载/打开多个页面。在这种情况下,则必须为每个异步进程创建一个单独的WebBrowser对象,这可能会带来很大的开销。

2 个答案:

答案 0 :(得分:0)

HTML页面显然是XML格式的。 您需要:

 - load the page with HttpClient.
 - cut the part (including) the tags <html> </html>
 - parse it using XmlReader.
  • 您需要查看页面源代码才能查看页面结构

答案 1 :(得分:0)

您应该能够轻松捕获类似这样的内容,只需对站点进行简单的httprequest。这将返回带有所有页面数据的httpResponse,然后您只需解析html即可获取所需的文本。

我可以在问题列表中看到html中的数据。

虽然可以使用.NET中的内置httprequest / response对象执行此操作,但如果使用外部工具(如HtmlAgilitypack或FizzlerEx),则比使用内置的标准对象更容易地解析数据,如果使用.NET则更容易。 C#。

请参阅此帖子以获取有关这些选项的有用详细信息。  Get HTML code from website in C#