适合与外界交换大型数据集的格式?

时间:2011-12-09 18:33:45

标签: sql sql-server sql-server-2005 sql-server-2008 etl

在我的工作中,我们经常从各种不同的来源发送和接收大型数据集。我被问到的一个常见问题是“你想要什么格式的数据?”

我通常要求TSV,CSV或XML格式的数据。我能够轻松地将所有这些导入到基于MS SQL的环境中。

这是我的问题,如果我的主要考虑因素是1)易于导入2)数据完整性和3)大小(在磁盘上)是否有更理想的格式?

2 个答案:

答案 0 :(得分:0)

我使用CSV工作了一年多,我讨厌一个字符错误,导入失败。 XML太沉重了。 TSV非常好,但是如果你可以选择固定宽度文本文件很容易阅读并导入表格。

答案 1 :(得分:0)

tab-或逗号分隔通常可以正常工作。易于导入/导出到几乎任何系统。但是,强调通常:嵌入换行符或列分隔符的数据可能会有问题。 Tab- /逗号分隔的数据也很容易与其他软件“per-is”一起操作 - perl脚本,javascript,Excel等。

XML也相当普遍。由于角支架税,它既有臃肿又缺乏人类可读性:信号:噪音比相当低。它还需要具有XML支持的软件来处理或操作。从好的方面来说,XML确实具有明确标识数据类型的能力。在系统之间传输数据时,日期/时间值可能会有问题。 XML [推定,依赖于文档生成者的自愿一致性]标准化日期/时间值的表示(ISO 8601,非常感谢)。

但是,您忘记了另一种选择:使用JSON,YAML或其他轻量级标记语言。