Question

我有大约40k的HTML文件。它们都是相同的，除了里面的一些数据。

我想在一个文件中将其合并到我需要的数据中：

id  username  points

以下是HTML代码的一部分：

<h1>
  <span class="user">
  <span class="uname">__username__</span>
  <span class="user-rating">(9211)</span>
</h1>

另外还有来自不同div的信息：

<li class="active">
 <a href="/show_user.php?uid=3357863"><span>ID</span></a>
</li>

我正在考虑使用httrack下载所有HTML文件，之后可能会使用Notepad ++将选定的跨度移动到一个文件。

Answer 1

这是捕获您希望拥有的元素的正则表达式：

/"uname">(.*)<.*|\s*"user-rating">\((\d+)\)<.*|\s*uid=(\d+)/g

结果：

MATCH 1
1.  `__username__`
MATCH 2
2.  `9211`
MATCH 3
3.  `3357863`

这是用于测试正则表达式的a link。

编辑：

也许我很想念，如果你想在跨度而不是“href”中的“uid”中获取ID，如果ID是数字，你应该使用以下内容：

/"uname">(.*)<.*|\s*"user-rating">\((\d+)\)<.*|\s*uid=\d+"><span>(\d+)/g

如果它也可以是一个词，你应该使用它：

/"uname">(.*)<.*|\s*"user-rating">\((\d+)\)<.*|\s*uid=\d+"><span>(\w+)/g