Question

在处理使用光学字符识别（OCR）生成的文本文件时，我经常遇到线条或部分线条

t h a t  a r e  s p a c e d  o u t  l i k e  t h i s.

我希望能够使用正则表达式匹配这些单词并将字母重新拼凑在一起。但是我不知道如何使用捕获组或我常用的正则表达式知识工具箱来做到这一点。

Answer 1

这可能就是你要找的东西：

re.sub(r' (.)', r'\1', txt)

Answer 2

(?<=\s\s|^)((?:\w\s|\w\.)+)

这样可行。

Answer 3

试试这个：

re.sub(r' \b', r'', txt)