从HTML源获取特定信息

时间:2012-08-09 18:05:49

标签: .net html regex vb.net parsing

我整天都在编程,试图完成我的目标。起初我尝试使用正则表达式(正则表达式),但是虽然它确实达到了我的目标,但是它虽然确实达到了我的目标,但却过于复杂和不合适。

这是我正在使用的网站的链接:

http://thewarezscene.org/forums/memberlist.php?start=20    

如果您查看该页面的来源(该网站目前似乎已关闭),您会注意到这个连续的链接标记:

<a href="http://thewarezscene.org/forums/username-u14088.html">USERNAME</a>

每个新页面都有一个在网站上注册的每个人的列表。增加20。 start = 20,start = 40,start = 60。我知道如何从HTML页面获取所有元素,但是获取该特定链接格式的链接文本的最佳解决方案是什么?

2 个答案:

答案 0 :(得分:0)

使用像HTML Agility Pack这样的HTML解析器来解析HTML。

  

什么是Html Agility Pack(HAP)?

     

这是一个敏捷的HTML解析器,它构建一个读/写DOM并支持普通的XPATH或XSLT(你实际上不需要理解XPATH或XSLT来使用它,不用担心......)。它是一个.NET代码库,允许您解析“out of the web”HTML文件。解析器非常容忍“真实世界”格式错误的HTML。对象模型与提出System.Xml非常相似,但对于HTML文档(或流)。

正则表达式不适合解析HTML,如this answer中所示。

答案 1 :(得分:0)

如果要获取href

中存在参数“start”的所有元素
$("a[href*='start=']")