从明文中删除上标

时间:2014-06-08 19:21:28

标签: regex text replace

我经常从包含上标脚注的引文中引用引文,这些脚注在复制时是屁股的痛苦。它们在文本中显示为实际字母,因为它们以明文而不是html格式粘贴。

有没有办法通过正则表达式来运行这些上标?

例如

  

在开始时,bGod创造了dheaven和eearth。

应该成为

  

起初,上帝创造了天地。

我想不出有一种方法可以让正则表达式搜索拼写错误以及相应的连续数字和字母组。

有什么想法?在我的大部分写作中,我也使用Sublime Text 3,但我不介意将其外包给AppleScript或文本替换应用程序(aText,textExpander等)。

1 个答案:

答案 0 :(得分:1)

匹配代码与匹配屏幕

如果没有看到示例,很难分辨,但如果从代码视图复制文本,这应该是可行的,而不是常规的浏览器视图。 (Ctrl or Cmd-J是你的朋友)。由于编写规则需要时间,因此只有大量文本才有用。

在代码视图中,您的上标将以可由正则表达式定位的方式进行标记。例如:

and therefore bananas make you smartera

浏览器视图中的

(最后a是引文注释)在代码视图中可能如下所示:

and therefore bananas make you smarter<span class="mycitations">a</span>

在编辑器中,使用正则表达式,您可以处理文本以删除所有标记,或仅删除某些标记。规则可能并不总是很容易编写,当然有很多关于使用正则表达式来解析html的免责声明。

但是,如果您的源始终相同(例如维基百科),那么您可以创建和保存应该在多个页面上工作的规则。