结构化和非结构化数据与大规模数据处理引擎的集成

时间:2015-04-12 18:13:34

标签: apache-spark bigdata data-processing data-integration apache-flink

如何像Spark,apache flink这样的数据处理引擎将结构化,半结构化和非结构化数据集成在一起并影响计算?

1 个答案:

答案 0 :(得分:1)

Flink或Spark等通用数据处理引擎允许您定义自己的数据类型和功能。

如果您有非结构化或半结构化数据,您的数据类型可以反映这些属性,例如,通过使某些信息可选或使用灵活的数据结构(嵌套类型,列表,地图等)对其进行建模。用户定义的函数应该知道某些信息可能并不总是存在,并且知道如何处理这种情况。

因此,处理半结构化或非结构化数据并非免费。必须明确指定。事实上,两个系统都把重点放在用户定义的数据和功能上,但最近添加了API以简化结构化数据的处理(Flink:Table API,Spark:DataFrames)。