Autohotkey正则表达式以多行方式去除html标记

时间:2012-11-01 12:23:15

标签: regex autohotkey

我在html文件中有以下标记,我需要使用autohotkey和正则表达式从中获取文本“XX(1119601.1)”。由于结束标记仅在几次换行后出现,我无法在标记之间得到文本。

       <dd class="call_number">
      <!-- holdings allowed -->
    XX(1119601.1)

       </dd>

对此的任何帮助都将非常感激。

1 个答案:

答案 0 :(得分:0)

txt =
(Ltrim
    <dd class="call_number">
       <!-- holdings allowed -->
    XX(1119601.1)
    </dd>
)

RegexMatch(txt, "<dd .+?>(.*)</dd>", m)
msgbox % RegexReplace(m1, "<!.+>")

此代码首先匹配标记内的所有内容(您可以使其更具体一些,例如只匹配标记中的字符串),然后替换Html注释。

您也可以使用RegexReplace删除不需要的换行符。

修改 将RegexMatch更改为不自动删除换行符。