如何使用推荐行将非常大的xml.bz2拆分为较小的块

时间:2019-05-31 02:24:23

标签: unix command-line bz2

我有这个很大的Wiki页面文件,我在这里下载     https://dumps.wikimedia.org/enwiki/latest/ 文件名是enwiki-latest-pages-articles.xml.bz2。这是我打算用来训练ML的15G文件。但是,我想先在较小的文件集上对其进行测试,以查看其是否有效。我想知道是否可以在命令行(mac envr)中做到这一点

1 个答案:

答案 0 :(得分:0)

如果是文本文件,请使用以下命令从文件中获取前10个数据:

cat文件|头