我怎样才能在C#中解析它

时间:2017-07-22 13:33:49

标签: c# web-scraping

我是一个使用C#来抓取网站的新手。我理解如何找到href以及如何处理非常简单的表。

现在我想解析这个......然后选择第一个文本,即办公室经理'和href

<tr>
  <td>Office Manager</td>
  <td>Office & Admin</td>
  <td>Cambridge</td>
  <td class="btn-wrapper desktop-btn"><a href="http://www.itoworld.com/office-manager/" class="std-btn">Find out more</a></td>
</tr>
<tr class="mobile-btn">
  <td colspan="3" class="btn-wrapper"><a href="http://www.itoworld.com/office-manager/" class="std-btn">Find out more</a></td>
</tr>

民间也可以推荐一个我可以学习节点,tds和trs世界的网站吗?

2 个答案:

答案 0 :(得分:0)

您可以使用CsQuery库(在nuget中可用)使用jQuery语法解析HTML:

var page = new CQ(html);
var firstManagerHref = page.Find("a.std-btn:first()").Attr("href");

答案 1 :(得分:-1)

如果您想从HTML检索信息,我建议您使用像这样的库:

http://html-agility-pack.net/