htmlagilitypack刮掉所有行

时间:2012-05-01 14:34:29

标签: .net winforms html-parsing web-scraping html-agility-pack

我需要在网页中包含的iframe中使用包含“row”的类来抓取所有表行。

我目前有这段代码:

"//tr[contains(@class, 'row']"

但是我收到了错误

  

'// tr [contains(@class,'row']'有一个无效的令牌。

我的问题是:

  1. 如何获取iframe的HTML内容?
  2. 正确的XPath表达式是什么?
  3. 有人可以帮帮我吗?

    修改 我将xpath更改为

    "//tr[contains(@class, 'row')]"
    

    我没有得到错误,但我什么都没得到

    感谢

1 个答案:

答案 0 :(得分:1)

如评论中所述,您需要获取iFrame的来源并直接加载页面以扫描HTML。

  1. 使用HTMLAglityPack查找iframe位置

    阅读本文,了解如何让iFrame的src刮掉:get i frame source using HtmlAgilityPack

  2. 执行WebRequest以获取iFrame的src

  3. 使用HTMLAglityPack解析响应。