我正在使用Keras查看一些机器学习/预测代码,并且输入数据集存储在npz文件中,而不是通常的csv格式。
为什么作者会使用这种格式而不是csv?它有什么优势?
答案 0 :(得分:1)
这取决于预期的用法。如果期望文件具有广泛的用例,包括从普通客户端计算机直接访问文件,则csv很好,因为它可以直接加载到广泛部署的Excel或LibreOffice calc中。但这只是一个很好的旧文本文件,没有索引,也没有任何其他功能。
另一方面,文件仅预期供数据科学家或通常说成numpy的用户使用,因此npz是更好的选择,因为它具有附加功能(压缩,延迟加载等)
长话短说,您可以将更多的受众群体吸引到更高的功能
答案 1 :(得分:0)
来自https://kite.com/python/docs/numpy.lib.npyio.NpzFile
类似于字典的对象,可以在构建时提供的压缩存档中延迟加载文件。
因此,它是一个压缩的存档(磁盘上的大小小于CSV,可以存储多个文件),并且仅在需要时才能从磁盘加载文件(在CSV中,当您只需要1列时,仍然必须读取整个文件才能对其进行解析。)
=>优点是:性能和更多功能