Question

我整天都在编程，试图完成我的目标。起初我尝试使用正则表达式（正则表达式），但是虽然它确实达到了我的目标，但是它虽然确实达到了我的目标，但却过于复杂和不合适。

这是我正在使用的网站的链接：

http://thewarezscene.org/forums/memberlist.php?start=20

如果您查看该页面的来源（该网站目前似乎已关闭），您会注意到这个连续的链接标记：

<a href="http://thewarezscene.org/forums/username-u14088.html">USERNAME</a>

每个新页面都有一个在网站上注册的每个人的列表。增加20。 start = 20，start = 40，start = 60。我知道如何从HTML页面获取所有元素，但是获取该特定链接格式的链接文本的最佳解决方案是什么？

Answer 1

使用像HTML Agility Pack这样的HTML解析器来解析HTML。

什么是Html Agility Pack（HAP）？

这是一个敏捷的HTML解析器，它构建一个读/写DOM并支持普通的XPATH或XSLT（你实际上不需要理解XPATH或XSLT来使用它，不用担心......）。它是一个.NET代码库，允许您解析“out of the web”HTML文件。解析器非常容忍“真实世界”格式错误的HTML。对象模型与提出System.Xml非常相似，但对于HTML文档（或流）。

正则表达式不适合解析HTML，如this answer中所示。

Answer 2

如果要获取href

中存在参数“start”的所有元素

$("a[href*='start=']")

从HTML源获取特定信息

2 个答案: