我有一个巨大的文本文件(大约1.5千兆字节),里面有xml数据。文件中的所有文本都在一行中,并且尝试在任何文本编辑器中打开它(即使是此线程中提到的那些文件:Text editor to open big (giant, huge, large) text files)要么失败,要么完全无法使用,因为文本编辑器在尝试时会挂起滚动。
我希望使用以下sed命令将新行引入文件
sed 's/>/>\n/g' data.xml > data_with_newlines.xml
可悲的是,这导致了sed给我一个分段错误。根据我的理解,sed逐行读取文件,在这种情况下,它会尝试在一行中读取整个1,5 gig文件,这肯定会解释段错误。但问题仍然存在。
如何在每次>之后引入换行符?在xml文件中?我是否必须通过逐个字符地阅读文件来编写一个小程序来为我做这个?
答案 0 :(得分:4)
有些sed对此有限制。 GNU sed没有限制,只要它可以“malloc()”更多(虚拟)内存,只要你喜欢就可以提供或构建行。 (来自文档)
如果可能,我建议您更改创建该xml文件的方式。 (为什么一开始就在一行?)。否则,您可以逐个字符地阅读它。例如使用shell
while read -n 1 ch
do
case "$ch" in
">" ) printf "%s\n" "$ch";;
*) printf "%s" $ch;;
esac
done <"file"
或
while read -n 1000 str ; do
echo "${str//>/>
}"
done < file
答案 1 :(得分:0)
This可能适合您。