一位队友和我正在讨论我们的工作经历,他说他曾使用过Informatica工具。他的工作涉及从EDI文件中提取所需信息并转换它们然后将它们加载到数据库中。 他说EDI文件有非结构化数据,而不是像.CSV和.SQL这样的格式,而在EDI文件中,列由'|'分隔符号
在我看来,我认为EDI和CSV之间没有任何区别,只有CSV是','分开,EDI是'|'那么为什么EDI文件被归类为非结构化数据?
答案 0 :(得分:0)
传统的EDI不是非结构化的。 EDI通常遵循某种标准(X12,EDIFACT,TRADACOMS等),专门定义数据的结构。 XML,CSV和分隔文件也是结构化的。它们具有已定义的字段分隔符和记录终止符。
非结构化数据的一个示例是Excel文件,它具有专有格式的多个数据。没有记录标识符,数据解析器将无法理解数据是什么。它看起来像是一个数据/文本流,但没有任何映射器需要翻译/集成的上下文。 Word文档或PDF也可以被视为“非结构化”。