C#通过HTML搜索

时间:2011-05-02 10:53:46

标签: c# html html-parsing

在过去的几个月里,我编写了一些程序,将HTML页面加载到字符串中,并执行各种操作,如提取部分。我基本上是为一些没有API的网站编写自己的GUI。

我通过将许多String.Substring()String.IndexOf()String.LastIndexOf()语句拼接在一起来完成此操作。

我意识到这可能不是最好的方法 - 我刚开始写一些“快速而肮脏”的试验。

从网页中提取令牌的正确方法是什么? 谢谢:))

2 个答案:

答案 0 :(得分:3)

答案 1 :(得分:3)

对于XHTML,将其加载到XmlDocument或XDoxument中。

对于(非X)HTML,将其加载到HTML Agility Pack的HtmlDocument中 - API与XmlDocument几乎相同,因此应该很熟悉。