我有一些从PDF提取的文本。它们看起来如下:
If employees can’t find
the time to learn, reduce
the friction. Manager involvement is a critical ingredient to
increase employee engagement with learning.
Amplify your manager
relationships.
66% 66% 66%
4 5
如您所见,句子之间用换行符分隔。也有许多行是从表中提取的,仅包含数字和特殊字符。
如何将这些句子与 Regex 结合在一起?其次摆脱其他限制。
以Python
或awk
之类的bash解决方案将是不错的选择。
非常感谢
编辑
正则表达式从来都不是我的强项之一。
经过数小时的阅读文档以及试用和错误后,我设法摆脱了所有不包含任何单词字符的行,方法是:
re.sub('\n[\d+\W]*\n', '\n\n', text)
我上面描述的第一个问题非常艰巨,但我正在努力解决。
答案 0 :(得分:1)
这只是一个开始,但以下内容可能会有所帮助:
cat file.txt | grep -E '[a-zA-Z]' | xargs
它会丢弃其中没有至少一个字母字符的任何行,然后将它们连接在一起一个空格。