我在linux机器上有一个巨大的文件。该文件大约为20GB,盒子上的空间大约为25GB。我想将文件拆分为~100mb部分。我知道这是一个分裂的'命令,但保留原始文件。我没有足够的空间来保留原件。关于如何实现这一点的任何想法?如果他们使任务比bash更容易,我甚至可以使用任何节点模块。
答案 0 :(得分:4)
您可以在shell脚本中使用tail和truncate将文件拆分到位,同时销毁原始文件。我们将文件向后拆分,以便我们可以使用truncate。以下是Bash脚本示例:
#!/bin/bash
if [ -z "$2" ]; then
echo "Usage: insplit.sh <splitsize> <filename>"
exit 1
fi
FILE="$2"
SPLITSIZE="$1"
FILESIZE=`stat -c '%s' $FILE`
BLOCKCOUNT=$(( (FILESIZE+SPLITSIZE-1)/SPLITSIZE ))
echo "Split count: $BLOCKCOUNT"
BLOCKCOUNT=$(($BLOCKCOUNT-1))
while [ $BLOCKCOUNT -ge 0 ]; do
FNAME="$FILE.$BLOCKCOUNT"
echo "writing $FNAME"
OFFSET=$((BLOCKCOUNT * SPLITSIZE))
BLOCKSIZE=$(( $FILESIZE - $OFFSET))
tail -c "$BLOCKSIZE" $FILE > $FNAME
truncate -s $OFFSET $FILE
FILESIZE=$((FILESIZE-BLOCKSIZE))
BLOCKCOUNT=$(( $BLOCKCOUNT-1 ))
done
我用随机文件确认了结果:
$ dd if=/dev/urandom of=largefile bs=512 count=1000
$ md5sum largefile
7ff913b62ef572265661a85f06417746 largefile
$ ./insplit.sh 200000 largefile
Split count: 3
writing largefile.2
writing largefile.1
writing largefile.0
$ cat largefile.0 largefile.1 largefile.2 | md5sum
7ff913b62ef572265661a85f06417746 -
答案 1 :(得分:4)
我的尝试:
#! /bin/bash
if [ $# -gt 2 -o $# -lt 1 -o ! -f "$1" ]; then
echo "Usage: ${0##*/} <filename> [<split size in M>]" >&2
exit 1
fi
bsize=${2:-100}
bucket=$( echo $bsize '* 1024 * 1024' | bc )
size=$( stat -c '%s' "$1" )
chunks=$( echo $size / $bucket | bc )
rest=$( echo $size % $bucket | bc )
[ $rest -ne 0 ] && let chunks++
while [ $chunks -gt 0 ]; do
let chunks--
fn=$( printf '%s_%03d.%s' "${1%.*}" $chunks "${1##*.}" )
skip=$(( bsize * chunks ))
dd if="$1" of="$fn" bs=1M skip=${skip} || exit 1
truncate -c -s ${skip}M "$1" || exit 1
done
以上假定bash(1)
以及stat(1)
,dd(1)
和truncate(1)
的Linux实施。它应该快得多,因为它使用dd(1)
来复制初始文件的块。它还使用bc(1)
来确保20GB范围内的算术运算不会溢出任何内容。但是,该脚本仅在较小的文件上进行了测试,因此请在针对您的数据运行之前仔细检查它。