如何在不使用WebBrowser的情况下从https://www.whoscored.com/Statistics的网页中提取元素的内容,例如巴黎圣日耳曼的财产?
此数据经常更新,无法从HTTP请求可以接收的源代码中访问。如果可能,我将异步访问此类数据,以加快抓取速度。据我了解,一个WebBrowser对象不能一次加载/打开多个页面。在这种情况下,则必须为每个异步进程创建一个单独的WebBrowser对象,这可能会带来很大的开销。
答案 0 :(得分:0)
- load the page with HttpClient.
- cut the part (including) the tags <html> </html>
- parse it using XmlReader.
答案 1 :(得分:0)
您应该能够轻松捕获类似这样的内容,只需对站点进行简单的httprequest。这将返回带有所有页面数据的httpResponse,然后您只需解析html即可获取所需的文本。
我可以在问题列表中看到html中的数据。
虽然可以使用.NET中的内置httprequest / response对象执行此操作,但如果使用外部工具(如HtmlAgilitypack或FizzlerEx),则比使用内置的标准对象更容易地解析数据,如果使用.NET则更容易。 C#。
请参阅此帖子以获取有关这些选项的有用详细信息。 Get HTML code from website in C#