我有大约40k的HTML文件。它们都是相同的,除了里面的一些数据。
我想在一个文件中将其合并到我需要的数据中:
id username points
以下是HTML代码的一部分:
<h1>
<span class="user">
<span class="uname">__username__</span>
<span class="user-rating">(9211)</span>
</h1>
另外还有来自不同div的信息:
<li class="active">
<a href="/show_user.php?uid=3357863"><span>ID</span></a>
</li>
我正在考虑使用httrack下载所有HTML文件,之后可能会使用Notepad ++将选定的跨度移动到一个文件。
答案 0 :(得分:0)
这是捕获您希望拥有的元素的正则表达式:
/"uname">(.*)<.*|\s*"user-rating">\((\d+)\)<.*|\s*uid=(\d+)/g
结果:
MATCH 1
1. `__username__`
MATCH 2
2. `9211`
MATCH 3
3. `3357863`
这是用于测试正则表达式的a link。
编辑:
也许我很想念,如果你想在跨度而不是“href”中的“uid”中获取ID,如果ID是数字,你应该使用以下内容:
/"uname">(.*)<.*|\s*"user-rating">\((\d+)\)<.*|\s*uid=\d+"><span>(\d+)/g
如果它也可以是一个词,你应该使用它:
/"uname">(.*)<.*|\s*"user-rating">\((\d+)\)<.*|\s*uid=\d+"><span>(\w+)/g