我正在与正则表达式进行战斗。 (MOBI创作) 我有两个文件:一个是XML,另一个是HTML目录。
XML的重要部分:
<navPoint id="_NeedsHTMLid" playOrder="40">
<navLabel><text>Needs anchor text from link.)</text></navLabel>
...
HTML TOC当然看起来像: schema.org文章标记
======
时间和小时......永远使用Textpad。看到这里的评论,现在我正在使用NotePad ++ ...一些正则表达式的结果是不同的(不是我还没有它工作。)#_[\b(\w\b]
正在返回ID:现在?没那么多!
有谁知道如何从这些中抽出ID和锚文本?我会非常感激。
答案 0 :(得分:0)
#_[\b(\w\b]
不是有效的正则表达式。试试_([^"]+)\b
。
已编辑:尝试[^"]
代替\w
。
答案 1 :(得分:0)
您可以使用它来同时获取id和锚文本:
_(\ W +)\ C |([A-Z \ S。] + [)] +)
答案 2 :(得分:0)
如果您想匹配ID和文字,请转到Search
&gt; Find
菜单(快捷键 CTRL + F )并执行以下操作:
找到:
id="([a-zA-Z0-9\-\:\_\.]+)"|<text>(.+?)<\/text>
选择单选按钮“正则表达式”
然后按Find All in Current Document
您可以使用regex101上的示例进行测试。
这是关于有效ID名称的StackOverflow帖子。
我没有为您提供搜索和替换解决方案,因为您没有提及有关替换的任何内容。