如何在页面抓取HTML Agility的同时从页面源获取绝对URL?

时间:2018-05-07 13:17:03

标签: html html-agility-pack

我正在使用此代码通过HTMLAgility抓取HTML页面。但是在抓取页面时,我无法将相对URL转换为absoute url。

我正在使用此代码:

HtmlAgilityPack.HtmlDocument doc = web.Load(serviceStatusHTMLURL);
data = doc.DocumentNode.SelectSingleNode("//div[@id='columnRight']").OuterHtml;

我需要使用所有HTML标记来抓取整个页面。

1 个答案:

答案 0 :(得分:1)

由于您需要在单个页面中抓取所有HTML内容。您可以将第二行修改为以下代码,其中包含该页面的所有内容。

data = doc.DocumentNode.InnerText;

您的整个网页内容将在DocumentNode