我有几百个.docx文件,我正在转换为降价。我正在使用textutil将.docx转换为html和Pandoc将html转换为Markdown。
我遇到的问题是原始.docx文件包含dropcaps。在文本文件中,我现在将第一个字母(即dropcap)与其段落分隔开。它看起来像这样:
T
he following five basic pre-conditions are essential...
我正在使用mac(10.6.8)和textmate。 Textmate允许使用正则表达式进行查找和替换。
如何删除换行符并将分隔的字母与其段落的其余部分重新加入?
答案 0 :(得分:0)
对于搜索,请尝试以下操作:
^([A-Z])[\r\n]+(\w+)\b
替换:
$1$2