如何使用Regex清除OCR文本

时间:2019-07-19 22:49:39

标签: python regex bash text

我有一些从PDF提取的文本。它们看起来如下:

If employees can’t find      
the time to learn, reduce  
the friction. Manager involvement is a critical ingredient to 

increase employee engagement with learning.

Amplify your manager  
relationships. 

66% 66% 66%

4 5

如您所见,句子之间用换行符分隔。也有许多行是从表中提取的,仅包含数字和特殊字符。

如何将这些句子与 Regex 结合在一起?其次摆脱其他限制。
Pythonawk之类的bash解决方案将是不错的选择。
非常感谢

编辑

正则表达式从来都不是我的强项之一。
经过数小时的阅读文档以及试用和错误后,我设法摆脱了所有不包含任何单词字符的行,方法是:

re.sub('\n[\d+\W]*\n', '\n\n', text)

我上面描述的第一个问题非常艰巨,但我正在努力解决。

1 个答案:

答案 0 :(得分:1)

这只是一个开始,但以下内容可能会有所帮助:

cat file.txt | grep -E '[a-zA-Z]' | xargs

它会丢弃其中没有至少一个字母字符的任何行,然后将它们连接在一起一个空格。