Linux:在有限的空间上使用拆分

时间:2015-06-16 03:50:35

标签: linux bash file-io

我在linux机器上有一个巨大的文件。该文件大约为20GB,盒子上的空间大约为25GB。我想将文件拆分为~100mb部分。我知道这是一个分裂的'命令,但保留原始文件。我没有足够的空间来保留原件。关于如何实现这一点的任何想法?如果他们使任务比bash更容易,我甚至可以使用任何节点模块。

2 个答案:

答案 0 :(得分:4)

您可以在shell脚本中使用tail和truncate将文件拆分到位,同时销毁原始文件。我们将文件向后拆分,以便我们可以使用truncate。以下是Bash脚本示例:

#!/bin/bash

if [ -z "$2" ]; then
   echo "Usage: insplit.sh <splitsize> <filename>"
   exit 1
fi

FILE="$2"
SPLITSIZE="$1"

FILESIZE=`stat -c '%s' $FILE`
BLOCKCOUNT=$(( (FILESIZE+SPLITSIZE-1)/SPLITSIZE ))
echo "Split count: $BLOCKCOUNT"

BLOCKCOUNT=$(($BLOCKCOUNT-1))
while [ $BLOCKCOUNT -ge 0 ]; do
  FNAME="$FILE.$BLOCKCOUNT"
  echo "writing $FNAME"
  OFFSET=$((BLOCKCOUNT * SPLITSIZE))
  BLOCKSIZE=$(( $FILESIZE - $OFFSET))
  tail -c "$BLOCKSIZE" $FILE > $FNAME
  truncate -s $OFFSET $FILE
  FILESIZE=$((FILESIZE-BLOCKSIZE))
  BLOCKCOUNT=$(( $BLOCKCOUNT-1 ))
done

我用随机文件确认了结果:

$ dd if=/dev/urandom of=largefile bs=512 count=1000
$ md5sum largefile
7ff913b62ef572265661a85f06417746  largefile
$ ./insplit.sh 200000 largefile
Split count: 3
writing largefile.2
writing largefile.1
writing largefile.0
$ cat largefile.0 largefile.1 largefile.2 | md5sum
7ff913b62ef572265661a85f06417746  -

答案 1 :(得分:4)

我的尝试:

#! /bin/bash

if [ $# -gt 2 -o $# -lt 1 -o ! -f "$1" ]; then
    echo "Usage: ${0##*/} <filename> [<split size in M>]" >&2
    exit 1 
fi

bsize=${2:-100}
bucket=$( echo $bsize '* 1024 * 1024' | bc )
size=$( stat -c '%s' "$1" )
chunks=$( echo $size / $bucket | bc )
rest=$( echo $size % $bucket | bc )
[ $rest -ne 0 ] && let chunks++

while [ $chunks -gt 0 ]; do
    let chunks--
    fn=$( printf '%s_%03d.%s' "${1%.*}" $chunks "${1##*.}" )
    skip=$(( bsize * chunks ))
    dd if="$1" of="$fn" bs=1M skip=${skip} || exit 1 
    truncate -c -s ${skip}M "$1" || exit 1 
done

以上假定bash(1)以及stat(1)dd(1)truncate(1)的Linux实施。它应该快得多,因为它使用dd(1)来复制初始文件的块。它还使用bc(1)来确保20GB范围内的算术运算不会溢出任何内容。但是,该脚本仅在较小的文件上进行了测试,因此请在针对您的数据运行之前仔细检查它。