在带有csv的文本文件上使用sed

时间:2015-03-16 07:06:07

标签: bash csv text replace sed

我一直在尝试使用csv对两个文本文件进行批量查找和替换。我已经看到了SO提出的问题,似乎没有人回答我的问题。

我为我要修改的两个文本文件创建了两个变量。 csv有两列和几百行。第一列包含文本文件中已存在的字符串(没有空格),需要用第二列中同一行中的相应字符串替换。

作为测试,我尝试了脚本

#!/bin/bash

test1='long_file_name.txt'
find='string1'
replace='string2'

sed -e "s/$find/$replace/g" $test1 > $test1.tmp && mv $test1.tmp $test1

这是成功的,除了我需要为csv中的每一行做一次,使用每行中csv给出的值。我的预感是我的while循环被错误地使用了,但我无法找到错误。当我执行下面的脚本时,我得到命令行提示符,这让我觉得发生了一些事情。当我检查文本文件时,没有任何改变。

这两个文本文件,这个脚本和csv都在同一个文件夹中(当我这样做时,它也是我的工作目录)。

#!/bin/bash

textfile1='long_file_name1.txt'
textfile2='long_file_name2.txt'

while IFS=, read f1 f2
do
    sed -e "s/$f1/$f2/g" $textfile1 > $textfile1.tmp && \
         mv $textfile1.tmp $textfile1
    sed -e "s/$f1/$f2/g" $textfile2 > $textfile2.tmp && \
         mv $textfile2.tmp $textfile2
done <'findreplace.csv'

在我看来,这段代码应该按照我的意愿去做(但不是这样);也许我误解了一些基本的东西(我是bash脚本的新手)?

csv看起来像这样,但有数百行。所有a_i都应该替换为下一列中的对应b_i。

a_1 b_1
a_2 b_2
a_3 b_3

需要注意的事项:所有字符串实际上都包含下划线,以防这会影响某些内容。我已经尝试将变量名称换成大括号la $ {var},但它仍然无效。

我很欣赏这些解决方案,但我也很想知道为什么上述方法无效。 (另外,我会投票给所有人,但我缺乏这样做的声誉。但是,知道我很欣赏并且从你的答案中学到很多东西!)

2 个答案:

答案 0 :(得分:1)

如果您要处理大量数据并且您的模式可以包含特殊字符,我会考虑使用Perl。特别是如果你要在findreplace.csv中有很多对。您可以使用以下脚本作为过滤器或对大量文件进行就地修改。作为副作用,它将加载替换并在每次调用时仅创建一次Aho-Corrasic自动机,这将使此解决方案非常有效(在解决方案中O(M+N)而不是O(M*N))。

#!/usr/bin/perl
use strict;
use warnings;
use autodie;

my $in_place = ( @ARGV and $ARGV[0] =~ /^-i(.*)/ )
    ? do {
    shift;
    my $backup_extension = $1;
    my $backup_name      = $backup_extension =~ /\*/
        ? sub { ( my $fn = $backup_extension ) =~ s/\*/$_[0]/; $fn }
        : sub { shift . $backup_extension };
    my $oldargv = '-';
    sub {
        if ( $ARGV ne $oldargv ) {
            rename( $ARGV, $backup_name->($ARGV) );
            open( ARGVOUT, '>', $ARGV );
            select(ARGVOUT);
            $oldargv = $ARGV;
        }
    };
    }
    : sub { };

die "$0: File with replacements required." unless @ARGV;
my ( $re, %replace );
do {
    my $filename = shift;
    open my $fh, '<', $filename;
    %replace = map { chomp; split ',', $_, 2 } <$fh>;
    close $fh;
    $re = join '|', map quotemeta, keys %replace;
    $re = qr/($re)/;
};

while (<>) {
    $in_place->();
    s/$re/$replace{$1}/g;
}
continue {print}

用法:

./replace.pl replace.csv <file.in >file.out

以及

./replace.pl replace.csv file.in >file.out

或就地

./replace.pl -i replace.csv file1.csv file2.csv file3.csv

或备份

./replace.pl -i.orig replace.csv file1.csv file2.csv file3.csv

或使用备份whit占位符

./replace.pl -ithere.is.\*.original replace.csv file1.csv file2.csv file3.csv

答案 1 :(得分:0)

您应该使用以下命令将CSV文件转换为sed.script:

cat replace.csv | awk -F, '{print "s/" $1 "/" $2 "/g";}' > sed.script

然后你就可以做一次性的替换:

sed -i -f sed.script longfilename.txt

这将更快地实现你想做的事情。

顺便说一句,对不起,但是我不明白你的脚本应该有什么问题,除非你的CSV文件有超过2列。