我是一个使用C#来抓取网站的新手。我理解如何找到href
以及如何处理非常简单的表。
现在我想解析这个......然后选择第一个文本,即办公室经理'和href
。
<tr>
<td>Office Manager</td>
<td>Office & Admin</td>
<td>Cambridge</td>
<td class="btn-wrapper desktop-btn"><a href="http://www.itoworld.com/office-manager/" class="std-btn">Find out more</a></td>
</tr>
<tr class="mobile-btn">
<td colspan="3" class="btn-wrapper"><a href="http://www.itoworld.com/office-manager/" class="std-btn">Find out more</a></td>
</tr>
民间也可以推荐一个我可以学习节点,tds和trs世界的网站吗?
答案 0 :(得分:0)
您可以使用CsQuery库(在nuget中可用)使用jQuery语法解析HTML:
var page = new CQ(html);
var firstManagerHref = page.Find("a.std-btn:first()").Attr("href");
答案 1 :(得分:-1)
如果您想从HTML检索信息,我建议您使用像这样的库: