Question

我有一些从PDF提取的文本。它们看起来如下：

If employees can’t find      
the time to learn, reduce  
the friction. Manager involvement is a critical ingredient to 

increase employee engagement with learning.

Amplify your manager  
relationships. 

66% 66% 66%

4 5

如您所见，句子之间用换行符分隔。也有许多行是从表中提取的，仅包含数字和特殊字符。

如何将这些句子与 Regex 结合在一起？其次摆脱其他限制。
以Python或awk之类的bash解决方案将是不错的选择。
非常感谢

编辑

正则表达式从来都不是我的强项之一。
经过数小时的阅读文档以及试用和错误后，我设法摆脱了所有不包含任何单词字符的行，方法是：

re.sub('\n[\d+\W]*\n', '\n\n', text)

我上面描述的第一个问题非常艰巨，但我正在努力解决。

Answer 1

这只是一个开始，但以下内容可能会有所帮助：

cat file.txt | grep -E '[a-zA-Z]' | xargs

它会丢弃其中没有至少一个字母字符的任何行，然后将它们连接在一起一个空格。

如何使用Regex清除OCR文本

1 个答案: