在过去的几个月里,我编写了一些程序,将HTML页面加载到字符串中,并执行各种操作,如提取部分。我基本上是为一些没有API的网站编写自己的GUI。
我通过将许多String.Substring()
,String.IndexOf()
和String.LastIndexOf()
语句拼接在一起来完成此操作。
我意识到这可能不是最好的方法 - 我刚开始写一些“快速而肮脏”的试验。
从网页中提取令牌的正确方法是什么? 谢谢:))
答案 0 :(得分:3)
答案 1 :(得分:3)
对于XHTML,将其加载到XmlDocument或XDoxument中。
对于(非X)HTML,将其加载到HTML Agility Pack的HtmlDocument中 - API与XmlDocument几乎相同,因此应该很熟悉。