我整天都在编程,试图完成我的目标。起初我尝试使用正则表达式(正则表达式),但是虽然它确实达到了我的目标,但是它虽然确实达到了我的目标,但却过于复杂和不合适。
这是我正在使用的网站的链接:
http://thewarezscene.org/forums/memberlist.php?start=20
如果您查看该页面的来源(该网站目前似乎已关闭),您会注意到这个连续的链接标记:
<a href="http://thewarezscene.org/forums/username-u14088.html">USERNAME</a>
每个新页面都有一个在网站上注册的每个人的列表。增加20。 start = 20,start = 40,start = 60。我知道如何从HTML页面获取所有元素,但是获取该特定链接格式的链接文本的最佳解决方案是什么?
答案 0 :(得分:0)
使用像HTML Agility Pack这样的HTML解析器来解析HTML。
什么是Html Agility Pack(HAP)?
这是一个敏捷的HTML解析器,它构建一个读/写DOM并支持普通的XPATH或XSLT(你实际上不需要理解XPATH或XSLT来使用它,不用担心......)。它是一个.NET代码库,允许您解析“out of the web”HTML文件。解析器非常容忍“真实世界”格式错误的HTML。对象模型与提出System.Xml非常相似,但对于HTML文档(或流)。
正则表达式不适合解析HTML,如this answer中所示。
答案 1 :(得分:0)
如果要获取href
中存在参数“start”的所有元素$("a[href*='start=']")