最好在CSV中使用多列或具有多个值的单列?

时间:2020-04-01 20:12:34

标签: csv dataframe standards spreadsheet

我有一个CSV文件,其中包含粒度分析数据。数据类型对于我的问题并不是特别重要-我认为该问题通常适用于数据值的电子表格。如果样本是多模式的,则从实验室分析返回的列之一(“ phi中的模式”)可以包含多个值。通常,模式值的最大数量为3。

对于这种类型的数据结构,将值作为列表存储在单列中还是在多列中每列中有一个值(必要时使用“ NA”)是否更好?还有我不知道的另一种选择吗?

我考虑过的利弊:
单列优点:最好有一个单列,用分号分隔值,因此可以轻松地将它们与逗号分隔的列区分开,并可以通过编程方式进行解析。
单列缺点:机器可读性较低,因为该单元格是作为字符串而不是数字读取的。
多列专家:每个单元格都有一个值,因此很容易阅读。
多列缺点:用户/机器如何知道会有多少“模式”列-不同数据集之间可能会有所不同。可能会扩展到许多列。很多“ NA”值。

在谷歌搜索之后,我看到了this SO post并读到了first normal form(FNF),但是我不确定FNF是否适用于单个CSV文件而不是关系数据库。单个数据文件的CSV是否有其他标准或建议?

我知道在SO上有很多类似的问题,但是主要是关于如何拆分多个值或特定于数据库的问题。我找不到单个CSV的特别之处。

0 个答案:

没有答案