合并来自多个文件的数据

时间:2016-04-02 12:59:12

标签: jquery html regex notepad++

我有大约40k的HTML文件。它们都是相同的,除了里面的一些数据。

我想在一个文件中将其合并到我需要的数据中:

id  username  points

以下是HTML代码的一部分:

<h1>
  <span class="user">
  <span class="uname">__username__</span>
  <span class="user-rating">(9211)</span>
</h1>

另外还有来自不同div的信息:

<li class="active">
 <a href="/show_user.php?uid=3357863"><span>ID</span></a>
</li>

我正在考虑使用httrack下载所有HTML文件,之后可能会使用Notepad ++将选定的跨度移动到一个文件。

1 个答案:

答案 0 :(得分:0)

这是捕获您希望拥有的元素的正则表达式:

/"uname">(.*)<.*|\s*"user-rating">\((\d+)\)<.*|\s*uid=(\d+)/g

结果:

MATCH 1
1.  `__username__`
MATCH 2
2.  `9211`
MATCH 3
3.  `3357863`

这是用于测试正则表达式的a link

编辑:

也许我很想念,如果你想在跨度而不是“href”中的“uid”中获取ID,如果ID是数字,你应该使用以下内容:

/"uname">(.*)<.*|\s*"user-rating">\((\d+)\)<.*|\s*uid=\d+"><span>(\d+)/g

如果它也可以是一个词,你应该使用它:

/"uname">(.*)<.*|\s*"user-rating">\((\d+)\)<.*|\s*uid=\d+"><span>(\w+)/g