基于空行或任何未使用的字符将文本文件拆分为数组

时间:2013-08-30 18:31:16

标签: arrays bash ascii echo ifs

我有一个文本文件,其中包含由空行文本分隔的文本行。我想将该文件的内容推送到一个数组中,并使用空行作为分隔符。我尝试过IFS =“\ n”(或“\ r \ n”等等),但无法让它工作,所以相反我以为我会用不在文件中的字符替换任何空行,所以我拿起西班牙语倒置问号(\ xBF)

sed 's/^$/'$(echo -e "\xBF")'/'))

这样有用,我有一个角色,我将用它来切片我的文件并将其放入一个数组。(一点随机技巧,但嘿,这只是一种做法..)

现在我需要更改$ IFS,以便它使用反转的问号来切割数组的数据。

如果我输入

IFS=$(echo -e "\xBF")

在命令行中它可以正常工作

 echo "$IFS"
¿

但是,如果我用尾随读取-a键入该命令,那么它什么都不做:

[user@machine ~]$ IFS=$(echo -e "\xBF") read -a array <<< "$var"
[user@machine ~]$ echo "$IFS"
[user@machine ~]$

所以这很奇怪,因为$ var有一个值。

更令人惊讶的是,当我得到IFS之后立即验证IFS的价值时:

[user@machine ~]$ echo -n "$IFS" | od -abc
0000000  sp  ht  nl
    040 011 012
         \t  \n
0000003
[user@machine ~]$ 

这是IFS的默认值。

我很确定可以为IFS使用任何字符,不是吗?

或者,如果你有任何技巧可以将一个文件拆分成一个基于空行的拆分数组,我感兴趣! (为了理解,我仍然想深究这一点。)

非常感谢,并有一个愉快的周末:)

2 个答案:

答案 0 :(得分:4)

首先,根据设计,使用var=foo command设置的变量仅对command可用,并且不会为脚本的其余部分设置。

至于您的问题,read会在第一个分隔符(-d,默认:换行符)之前读取记录,然后按$IFS将其拆分为字段。

要循环播放您的项目,您可以使用

sed -e 's/^$/\xBF/' | while read -d $'\xBF' var
do
    printf "Value: %s\n-----\n" "$var"
done

要从字符串中将它们全部读入数组,您可以读取直到您希望没有的某个字符,如NUL字节:

IFS=$'\xBF' read -d '' -a array <<< "$var"

答案 1 :(得分:4)

此脚本应该按您的要求执行:

#!/bin/bash

i=1
s=1
declare -a arr
while read -r line 
do
    # If we find an empty line, then we increase the counter (i), 
    # set the flag (s) to one, and skip to the next line
    [[ $line == "" ]] && ((i++)) && s=1 && continue 

    # If the flag (s) is zero, then we are not in a new line of the block
    # so we set the value of the array to be the previous value concatenated
    # with the current line
    [[ $s == 0 ]] && arr[$i]="${arr[$i]}
$line" || { 
            # Otherwise we are in the first line of the block, so we set the value
            # of the array to the current line, and then we reset the flag (s) to zero 
            arr[$i]="$line"
            s=0; 
    }
done < file

for i in "${arr[@]}"
do
   echo "================"
   echo "$i"
done 

测试文件:

$ cat file
asdf dsf s dfsdaf s
sadfds fdsa fads f dsaf as

fdsafds f dsf ds afd f saf dsf
sdfsfs dfadsfsaf

sdfsafds fdsafads fd saf adsfas
sdfdsfds fdsfd saf dsa fds fads f

输出:

================
asdf dsf s dfsdaf s
sadfds fdsa fads f dsaf as
================
fdsafds f dsf ds afd f saf dsf
sdfsfs dfadsfsaf
================
sdfsafds fdsafads fd saf adsfas
sdfdsfds fdsfd saf dsa fds fads f

更新

为了忽略以#开头的行,您可以在do之后添加此行:

[[ $line =~ ^# ]] && continue