使用正则表达式在文本文件中查找和替换

时间:2012-04-23 18:55:15

标签: regex macos ms-word replace docx

我有几百个.docx文件,我正在转换为降价。我正在使用textutil将.docx转换为html和Pandoc将html转换为Markdown。

我遇到的问题是原始.docx文件包含dropcaps。在文本文件中,我现在将第一个字母(即dropcap)与其段落分隔开。它看起来像这样:

T

he following five basic pre-conditions are essential...

我正在使用mac(10.6.8)和textmate。 Textmate允许使用正则表达式进行查找和替换。

如何删除换行符并将分隔的字母与其段落的其余部分重新加入?

1 个答案:

答案 0 :(得分:0)

对于搜索,请尝试以下操作:

^([A-Z])[\r\n]+(\w+)\b

替换:

$1$2