用sed清理文本文件?

时间:2014-08-06 22:52:06

标签: sed

我有一堆需要清理的文本文件。实施例

    `E..4B?@.@...
..9J5.....P0.z.n9.9.. ........
 .k#a..5
E...y^@.r...J5..

E...y_@.r...J5..
..9.P..n9..0.z............
….2..3..9…n7…..@.yr`

有没有办法可以做到这一点?喜欢注意奇怪的模式?

1 个答案:

答案 0 :(得分:3)

对于这个答案,我假设您可以访问标准的unix / linux工具。

您的文件可能采用某种字处理器格式。如果是这样,摆脱垃圾的最好方法是用该程序打开它。您可以找到file

$ file mysteryfile 
mysteryfile: Composite Document File V2 Document, Little Endian, Os: Windows, Version 6.1 ....

如果这不起作用,则有一个标准的unix实用程序,用于从二进制文件中提取文本。它被称为strings

$ strings mysteryfile
Some
Recovered Text
...

strings的行为可以通过多种选项进行微调。请参阅man strings